studio_V1_4_OCR_SOTA

Sleeping

App Files Files Community

qqwjq1981 commited on Apr 27

Commit

1320e5b

verified ·

1 Parent(s): c34772c

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -12

app.py CHANGED Viewed

@@ -482,19 +482,40 @@ def solve_optimal_alignment(original_segments, generated_durations, total_durati
             )
     return original_segments
 def ocr_frame_worker(args):
     frame_idx, frame_time, frame = args
-    ocr = PaddleOCR(use_angle_cls=True, lang="ch")  # Initialize OCR inside worker
-    result = ocr.ocr(frame, cls=True)
-    texts = [line[1][0] for line in result[0]] if result[0] else []
-    combined_text = " ".join(texts).strip()
-    return {"time": frame_time, "text": combined_text}
 def frame_is_in_audio_segments(frame_time, audio_segments, tolerance=0.2):
-    """
-    Check if the frame_time falls within any audio segment (plus/minus tolerance).
-    """
     for segment in audio_segments:
         start, end = segment["start"], segment["end"]
         if (start - tolerance) <= frame_time <= (end + tolerance):
@@ -518,19 +539,20 @@ def extract_ocr_subtitles_parallel(video_path, transcription_json, interval_sec=
     cap.release()
     ocr_results = []
-    with concurrent.futures.ProcessPoolExecutor(max_workers=num_workers) as executor:
         futures = [executor.submit(ocr_frame_worker, frame) for frame in frames]
         for f in tqdm(concurrent.futures.as_completed(futures), total=len(futures)):
             try:
                 result = f.result()
                 if result["text"]:
                     ocr_results.append(result)
             except Exception as e:
-                print(f"⚠️ OCR failed for a frame: {e}")
     return ocr_results
 def collapse_ocr_subtitles(ocr_json, text_similarity_threshold=90):
     collapsed = []
     current = None

             )
     return original_segments
+ocr_model = None
+ocr_lock = threading.Lock()
+def init_ocr_model():
+    global ocr_model
+    with ocr_lock:
+        if ocr_model is None:
+            ocr_model = PaddleOCR(use_angle_cls=True, lang="ch")
 def ocr_frame_worker(args):
     frame_idx, frame_time, frame = args
+    init_ocr_model()  # Ensure model is loaded once per process
+    if frame is None or frame.size == 0:
+        return {"time": frame_time, "text": ""}
+    if not isinstance(frame, np.ndarray):
+        return {"time": frame_time, "text": ""}
+    if frame.dtype != np.uint8:
+        frame = frame.astype(np.uint8)
+    try:
+        result = ocr_model.ocr(frame, cls=True)
+        texts = [line[1][0] for line in result[0]] if result[0] else []
+        combined_text = " ".join(texts).strip()
+        return {"time": frame_time, "text": combined_text}
+    except Exception as e:
+        print(f"⚠️ OCR failed at {frame_time:.2f}s: {e}")
+        return {"time": frame_time, "text": ""}
 def frame_is_in_audio_segments(frame_time, audio_segments, tolerance=0.2):
     for segment in audio_segments:
         start, end = segment["start"], segment["end"]
         if (start - tolerance) <= frame_time <= (end + tolerance):
     cap.release()
     ocr_results = []
+    with concurrent.futures.ThreadPoolExecutor(max_workers=num_workers) as executor:
         futures = [executor.submit(ocr_frame_worker, frame) for frame in frames]
         for f in tqdm(concurrent.futures.as_completed(futures), total=len(futures)):
             try:
                 result = f.result()
                 if result["text"]:
                     ocr_results.append(result)
             except Exception as e:
+                print(f"⚠️ OCR worker failed: {e}")
     return ocr_results
 def collapse_ocr_subtitles(ocr_json, text_similarity_threshold=90):
     collapsed = []
     current = None