studio_V1_4_OCR_SOTA

Sleeping

App Files Files Community

qqwjq1981 commited on Apr 29

Commit

a83dd80

verified ·

1 Parent(s): f8b99f0

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -3

app.py CHANGED Viewed

@@ -209,7 +209,7 @@ def transcribe_video_with_speakers(video_path):
             "start": segment["start"],
             "end": segment["end"],
             "text": segment["text"],
-            "speaker": segment["speaker"]
         }
         for segment in result["segments"]
     ]
@@ -541,6 +541,7 @@ def extract_ocr_subtitles_parallel(video_path, transcription_json, interval_sec=
     cap.release()
     ocr_results = []
     with concurrent.futures.ThreadPoolExecutor(max_workers=num_workers) as executor:
         futures = [executor.submit(ocr_frame_worker, frame) for frame in frames]
@@ -550,8 +551,9 @@ def extract_ocr_subtitles_parallel(video_path, transcription_json, interval_sec=
                 if result["text"]:
                     ocr_results.append(result)
             except Exception as e:
-                print(f"⚠️ OCR worker failed: {e}")
     return ocr_results
@@ -574,6 +576,12 @@ def collapse_ocr_subtitles(ocr_json, text_similarity_threshold=90):
             current = {"start": time, "end": time, "text": text}
     if current:
         collapsed.append(current)
     return collapsed
 def post_edit_transcribed_segments(transcription_json, video_path,
@@ -673,7 +681,7 @@ def process_entry(entry, i, tts_model, video_width, video_height, process_mode,
             desired_duration = entry["end"] - entry["start"]
             desired_speed = entry['speed'] #calibrated_speed(entry['translated'], desired_duration)
-            speaker = entry.get("speaker", "default")
             speaker_wav_path = f"speaker_{speaker}_sample.wav"
             if process_mode > 2 and speaker_wav_path and os.path.exists(speaker_wav_path) and target_language in tts_model.synthesizer.tts_model.language_manager.name_to_id.keys():

             "start": segment["start"],
             "end": segment["end"],
             "text": segment["text"],
+            "speaker": segment.get("speaker", "SPEAKER_00")
         }
         for segment in result["segments"]
     ]
     cap.release()
     ocr_results = []
+    ocr_failures = 0  # Count OCR failures
     with concurrent.futures.ThreadPoolExecutor(max_workers=num_workers) as executor:
         futures = [executor.submit(ocr_frame_worker, frame) for frame in frames]
                 if result["text"]:
                     ocr_results.append(result)
             except Exception as e:
+                ocr_failures += 1
+    logger.info(f"✅ OCR extraction completed: {len(ocr_results)} frames successful, {ocr_failures} frames failed.")
     return ocr_results
             current = {"start": time, "end": time, "text": text}
     if current:
         collapsed.append(current)
+    # Log collapsed OCR summary
+    logger.info(f"✅ OCR subtitles collapsed into {len(collapsed)} segments.")
+    for idx, seg in enumerate(collapsed):
+        logger.debug(f"[OCR Collapsed {idx}] {seg['start']:.2f}s - {seg['end']:.2f}s: {seg['text'][:50]}...")
     return collapsed
 def post_edit_transcribed_segments(transcription_json, video_path,
             desired_duration = entry["end"] - entry["start"]
             desired_speed = entry['speed'] #calibrated_speed(entry['translated'], desired_duration)
+            speaker = entry.get("speaker", "SPEAKER_00")
             speaker_wav_path = f"speaker_{speaker}_sample.wav"
             if process_mode > 2 and speaker_wav_path and os.path.exists(speaker_wav_path) and target_language in tts_model.synthesizer.tts_model.language_manager.name_to_id.keys():