Spaces:

Luigi
/

Whisper-vs-Sensevoice-Small

Running on Zero

App Files Files Community

Luigi commited on May 28

Commit

264de1a

1 Parent(s): 22699db

pretty print diarized transcript

Browse files

Files changed (1) hide show

app.py +23 -6

app.py CHANGED Viewed

@@ -57,6 +57,23 @@ sense_models = {}
 dar_pipe = None
 converter = opencc.OpenCC('s2t')
 # —————— Helpers ——————
 def get_whisper_pipe(model_id: str, device: int):
@@ -124,7 +141,7 @@ def _transcribe_whisper_cpu(model_id, language, audio_path, enable_diar):
             os.unlink(tmp.name)
             text = converter.convert(out.get("text", "").strip())
             snippets.append(f"[{speaker}] {text}")
-        return "", "\n".join(snippets)
     # Raw-only branch
     result = pipe(audio_path) if language == "auto" else pipe(audio_path, generate_kwargs={"language": language})
     transcript = converter.convert(result.get("text", "").strip())
@@ -149,7 +166,7 @@ def _transcribe_whisper_gpu(model_id, language, audio_path, enable_diar):
             os.unlink(tmp.name)
             text = converter.convert(out.get("text", "").strip())
             snippets.append(f"[{speaker}] {text}")
-        return "", "\n".join(snippets)
     # Raw-only branch
     result = pipe(audio_path) if language == "auto" else pipe(audio_path, generate_kwargs={"language": language})
     transcript = converter.convert(result.get("text", "").strip())
@@ -195,7 +212,7 @@ def _transcribe_sense_cpu(model_id: str,
                 txt = re.sub(r"[^\w\s]", "", txt)
             txt = converter.convert(txt)
             snippets.append(f"[{speaker}] {txt}")
-        return "", "\n".join(snippets)
     # Raw-only branch
     segs = model.generate(
         input=audio_path,
@@ -246,7 +263,7 @@ def _transcribe_sense_gpu(model_id: str,
                 txt = re.sub(r"[^\w\s]", "", txt)
             txt = converter.convert(txt)
             snippets.append(f"[{speaker}] {txt}")
-        return "", "\n".join(snippets)
     # Raw-only branch
     segs = model.generate(
         input=audio_path,
@@ -300,7 +317,7 @@ with Demo:
             device_radio = gr.Radio(choices=["GPU", "CPU"], value="GPU", label="Device")
             diar_check = gr.Checkbox(label="Enable Diarization", value=True)
             out_w = gr.Textbox(label="Transcript", visible=False)
-            out_w_d = gr.Textbox(label="Diarized Transcript", visible=True)
             # Toggle visibility based on checkbox
             diar_check.change(lambda e: gr.update(visible=not e), inputs=diar_check, outputs=out_w)
             diar_check.change(lambda e: gr.update(visible=e), inputs=diar_check, outputs=out_w_d)
@@ -317,7 +334,7 @@ with Demo:
             punct_chk = gr.Checkbox(label="Enable Punctuation", value=True)
             diar_s_chk = gr.Checkbox(label="Enable Diarization", value=True)
             out_s = gr.Textbox(label="Transcript", visible=False)
-            out_s_d = gr.Textbox(label="Diarized Transcript", visible=True)
             # Toggle visibility
             diar_s_chk.change(lambda e: gr.update(visible=not e), inputs=diar_s_chk, outputs=out_s)
             diar_s_chk.change(lambda e: gr.update(visible=e), inputs=diar_s_chk, outputs=out_s_d)

 dar_pipe = None
 converter = opencc.OpenCC('s2t')
+ # —————— Helpers ——————
+def format_diarization_html(snippets):
+    palette = ["#e74c3c", "#3498db", "#27ae60", "#e67e22", "#9b59b6", "#16a085", "#f1c40f"]
+    speaker_colors = {}
+    html = ["<div style='font-family:monospace; line-height:1.5em;'>"]
+    for s in snippets:
+        if s.startswith("[") and "]" in s:
+            spk, txt = s[1:].split("]", 1)
+            spk, txt = spk.strip(), txt.strip()
+        else:
+            spk, txt = "", s
+        if spk not in speaker_colors:
+            speaker_colors[spk] = palette[len(speaker_colors) % len(palette)]
+        color = speaker_colors[spk]
+        html.append(f"<p style='margin:4px 0; color:{color};'><strong>{spk}:</strong> {txt}</p>")
+    html.append("</div>")
+    return "".join(html)
 # —————— Helpers ——————
 def get_whisper_pipe(model_id: str, device: int):
             os.unlink(tmp.name)
             text = converter.convert(out.get("text", "").strip())
             snippets.append(f"[{speaker}] {text}")
+        return "", format_diarization_html(snippets)
     # Raw-only branch
     result = pipe(audio_path) if language == "auto" else pipe(audio_path, generate_kwargs={"language": language})
     transcript = converter.convert(result.get("text", "").strip())
             os.unlink(tmp.name)
             text = converter.convert(out.get("text", "").strip())
             snippets.append(f"[{speaker}] {text}")
+        return "", format_diarization_html(snippets)
     # Raw-only branch
     result = pipe(audio_path) if language == "auto" else pipe(audio_path, generate_kwargs={"language": language})
     transcript = converter.convert(result.get("text", "").strip())
                 txt = re.sub(r"[^\w\s]", "", txt)
             txt = converter.convert(txt)
             snippets.append(f"[{speaker}] {txt}")
+        return "", format_diarization_html(snippets)
     # Raw-only branch
     segs = model.generate(
         input=audio_path,
                 txt = re.sub(r"[^\w\s]", "", txt)
             txt = converter.convert(txt)
             snippets.append(f"[{speaker}] {txt}")
+        return "", format_diarization_html(snippets)
     # Raw-only branch
     segs = model.generate(
         input=audio_path,
             device_radio = gr.Radio(choices=["GPU", "CPU"], value="GPU", label="Device")
             diar_check = gr.Checkbox(label="Enable Diarization", value=True)
             out_w = gr.Textbox(label="Transcript", visible=False)
+            out_w_d = gr.HTML(label="Diarized Transcript", visible=True)
             # Toggle visibility based on checkbox
             diar_check.change(lambda e: gr.update(visible=not e), inputs=diar_check, outputs=out_w)
             diar_check.change(lambda e: gr.update(visible=e), inputs=diar_check, outputs=out_w_d)
             punct_chk = gr.Checkbox(label="Enable Punctuation", value=True)
             diar_s_chk = gr.Checkbox(label="Enable Diarization", value=True)
             out_s = gr.Textbox(label="Transcript", visible=False)
+            out_s_d = gr.HTML(label="Diarized Transcript", visible=True)
             # Toggle visibility
             diar_s_chk.change(lambda e: gr.update(visible=not e), inputs=diar_s_chk, outputs=out_s)
             diar_s_chk.change(lambda e: gr.update(visible=e), inputs=diar_s_chk, outputs=out_s_d)