studio_V1_4_OCR_SOTA

Sleeping

qqwjq1981 commited on Apr 29

Commit

548c12a

verified ·

1 Parent(s): 7d826f9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -638,30 +638,37 @@ def post_edit_transcribed_segments(transcription_json, video_path,
             updated_entry["ocr_similarity"] = best_score if best_score >= 0 else None
         merged_segments.append(updated_entry)
     # Step 4: Insert unused OCR segments (Phase 2)
     inserted_segments = []
     for ocr_idx, ocr in enumerate(collapsed_ocr):
-        if ocr_idx not in used_ocr_indices:
-            # Try to assign the speaker based on nearby merged segments
-            nearby_speakers = []
-            for seg in merged_segments:
-                if abs(seg["start"] - ocr["start"]) <= 2.0 or abs(seg["end"] - ocr["end"]) <= 2.0:
-                    if "speaker" in seg:
-                        nearby_speakers.append(seg["speaker"])
-            if nearby_speakers:
-                assigned_speaker = nearby_speakers[0]  # Take the first nearby speaker
-            else:
-                assigned_speaker = "SPEAKER_00"
-            inserted_segment = {
-                "start": ocr["start"],
-                "end": ocr["end"],
-                "text": ocr["text"],
-                "speaker": assigned_speaker
-            }
-            inserted_segments.append(inserted_segment)
     # Step 5: Combine and sort
     final_segments = merged_segments + inserted_segments

             updated_entry["ocr_similarity"] = best_score if best_score >= 0 else None
         merged_segments.append(updated_entry)
     # Step 4: Insert unused OCR segments (Phase 2)
     inserted_segments = []
     for ocr_idx, ocr in enumerate(collapsed_ocr):
+        if ocr_idx in used_ocr_indices:
+            continue
+        # Check for fuzzy duplicates in WhisperX
+        duplicate = False
+        for whisper_seg in transcription_json:
+            if abs(ocr["start"] - whisper_seg["start"]) < time_tolerance or abs(ocr["end"] - whisper_seg["end"]) < time_tolerance:
+                sim = fuzz.ratio(ocr["text"], whisper_seg["text"])
+                if sim >= text_similarity_threshold:
+                    duplicate = True
+                    break
+        if duplicate:
+            logger.debug(f"🟡 Skipping near-duplicate OCR: '{ocr['text']}'")
+            continue
+        # Infer speaker from nearest WhisperX entry
+        nearby = sorted(transcription_json, key=lambda x: abs(x["start"] - ocr["start"]))
+        speaker_guess = nearby[0].get("speaker", "unknown") if nearby else "unknown"
+        inserted_segment = {
+            "start": ocr["start"],
+            "end": ocr["end"],
+            "text": ocr["text"],
+            "speaker": speaker_guess
+        }
+        inserted_segments.append(inserted_segment)
     # Step 5: Combine and sort
     final_segments = merged_segments + inserted_segments