studio_V1_4_OCR_SOTA

Sleeping

App Files Files Community

qqwjq1981 commited on Jun 13

Commit

13e8c37

verified ·

1 Parent(s): ddd2e4a

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -47

app.py CHANGED Viewed

@@ -985,53 +985,6 @@ def merge_speaker_and_time_from_whisperx(
     return merged
-# def merge_speaker_and_time_from_whisperx(ocr_json, whisperx_json, text_sim_threshold=80, replace_threshold=90):
-#     merged = []
-#     used_whisperx = set()
-#     for ocr in ocr_json:
-#         ocr_start = ocr["start"]
-#         ocr_end = ocr["end"]
-#         ocr_text = ocr["text"]
-#         best_match = None
-#         best_score = -1
-#         best_idx = None
-#         for idx, wx in enumerate(whisperx_json):
-#             wx_start, wx_end = wx["start"], wx["end"]
-#             wx_text = wx["text"]
-#             if idx in used_whisperx:
-#                 continue  # Already matched
-#             time_center_diff = abs((ocr_start + ocr_end)/2 - (wx_start + wx_end)/2)
-#             if time_center_diff > 3:
-#                 continue
-#             sim = fuzz.ratio(ocr_text, wx_text)
-#             if sim > best_score:
-#                 best_score = sim
-#                 best_match = wx
-#                 best_idx = idx
-#         new_entry = copy.deepcopy(ocr)
-#         if best_match:
-#             new_entry["speaker"] = best_match.get("speaker", "UNKNOWN")
-#             new_entry["ocr_similarity"] = best_score
-#             if best_score >= replace_threshold:
-#                 new_entry["start"] = best_match["start"]
-#                 new_entry["end"] = best_match["end"]
-#                 used_whisperx.add(best_idx)  # Mark used
-#         else:
-#             new_entry["speaker"] = "UNKNOWN"
-#             new_entry["ocr_similarity"] = None
-#         merged.append(new_entry)
-#     return merged
 def realign_ocr_segments(merged_ocr_json, min_gap=0.2):
     """
     Realign OCR segments to avoid overlaps using midpoint-based adjustment.
@@ -1166,6 +1119,8 @@ def add_transcript_voiceover(video_path, translated_json, output_path, process_m
     # Sort and filter together
     results.sort(key=lambda x: x[0])
     filtered = [(translated_json[i], txt, aud, dur) for i, txt, aud, dur in results if dur > 0]
     translated_json = [entry for entry, _, _, _ in filtered]

     return merged
 def realign_ocr_segments(merged_ocr_json, min_gap=0.2):
     """
     Realign OCR segments to avoid overlaps using midpoint-based adjustment.
     # Sort and filter together
     results.sort(key=lambda x: x[0])
+    text_clips = [clip for _, clip, _, _ in results if clip]
     filtered = [(translated_json[i], txt, aud, dur) for i, txt, aud, dur in results if dur > 0]
     translated_json = [entry for entry, _, _, _ in filtered]