Spaces:

gradio
/

dialogue_diarization_demo_main

Running

App Files Files Community

freddyaboulton HF Staff commited on Aug 5

Commit

3bb71cf

verified ·

1 Parent(s): 535bd1a

Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

README.md +6 -6
requirements.txt +11 -0
run.ipynb +1 -0
run.py +126 -0

README.md CHANGED Viewed

@@ -1,12 +1,12 @@
 ---
-title: Dialogue Diarization Demo Main
-emoji: 🐠
-colorFrom: blue
 colorTo: indigo
 sdk: gradio
 sdk_version: 5.40.0
-app_file: app.py
 pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: dialogue_diarization_demo_main
+emoji: 🔥
+colorFrom: indigo
 colorTo: indigo
 sdk: gradio
 sdk_version: 5.40.0
+app_file: run.py
 pinned: false
+hf_oauth: true
 ---

requirements.txt ADDED Viewed

	@@ -0,0 +1,11 @@

+gradio-client @ git+https://github.com/gradio-app/gradio@9828952dd0569d86ae15ec4fbf27331c1539daab#subdirectory=client/python
+https://gradio-pypi-previews.s3.amazonaws.com/9828952dd0569d86ae15ec4fbf27331c1539daab/gradio-5.40.0-py3-none-any.whl
+gradio
+torch
+torchaudio
+pyannote.audio
+openai-whisper
+librosa
+numpy
+transformers
+speechbrain

run.ipynb ADDED Viewed

	@@ -0,0 +1 @@

+ {"cells": [{"cell_type": "markdown", "id": "302934307671667531413257853548643485645", "metadata": {}, "source": ["# Gradio Demo: dialogue_diarization_demo"]}, {"cell_type": "code", "execution_count": null, "id": "272996653310673477252411125948039410165", "metadata": {}, "outputs": [], "source": ["!pip install -q gradio gradio torch torchaudio pyannote.audio openai-whisper librosa numpy transformers speechbrain "]}, {"cell_type": "code", "execution_count": null, "id": "288918539441861185822528903084949547379", "metadata": {}, "outputs": [], "source": ["# type: ignore\n", "import gradio as gr\n", "from pyannote.audio import Pipeline\n", "import whisper\n", "\n", "diarization_pipeline = None\n", "whisper_model = None\n", "\n", "\n", "def load_models():\n", " global diarization_pipeline, whisper_model # noqa: PLW0603\n", "\n", " if diarization_pipeline is None:\n", " diarization_pipeline = Pipeline.from_pretrained(\n", " \"pyannote/speaker-diarization-3.1\", use_auth_token=True\n", " )\n", "\n", " if whisper_model is None:\n", " whisper_model = whisper.load_model(\"base\")\n", "\n", "\n", "def real_diarization(audio_file_path: str) -> list[dict[str, str]]:\n", " try:\n", " load_models()\n", "\n", " if diarization_pipeline is None or whisper_model is None:\n", " raise Exception(\"Failed to load models\")\n", "\n", " diarization = diarization_pipeline(audio_file_path)\n", "\n", " transcription = whisper_model.transcribe(audio_file_path)\n", " segments = transcription[\"segments\"]\n", "\n", " dialogue_segments = []\n", " speaker_mapping = {}\n", " speaker_counter = 1\n", "\n", " for segment in segments:\n", " start_time = segment[\"start\"]\n", " end_time = segment[\"end\"]\n", " text = segment[\"text\"].strip()\n", "\n", " speaker = \"Speaker 1\"\n", " for turn, _, speaker_label in diarization.itertracks(yield_label=True):\n", " if (\n", " turn.start <= start_time <= turn.end\n", " or turn.start <= end_time <= turn.end\n", " ):\n", " if speaker_label not in speaker_mapping:\n", " speaker_mapping[speaker_label] = f\"Speaker {speaker_counter}\"\n", " speaker_counter += 1\n", " speaker = speaker_mapping[speaker_label]\n", " break\n", "\n", " if text:\n", " dialogue_segments.append({\"speaker\": speaker, \"text\": text})\n", "\n", " return dialogue_segments\n", "\n", " except Exception as e:\n", " print(f\"Error in diarization: {str(e)}\")\n", " return []\n", "\n", "\n", "def process_audio(audio_file):\n", " if audio_file is None:\n", " gr.Warning(\"Please upload an audio file first.\")\n", " return []\n", "\n", " try:\n", " dialogue_segments = real_diarization(audio_file)\n", " return dialogue_segments\n", " except Exception as e:\n", " gr.Error(f\"Error processing audio: {str(e)}\")\n", " return []\n", "\n", "\n", "speakers = [\n", " \"Speaker 1\",\n", " \"Speaker 2\",\n", " \"Speaker 3\",\n", " \"Speaker 4\",\n", " \"Speaker 5\",\n", " \"Speaker 6\",\n", "]\n", "tags = [\n", " \"(pause)\",\n", " \"(background noise)\",\n", " \"(unclear)\",\n", " \"(overlap)\",\n", " \"(phone ringing)\",\n", " \"(door closing)\",\n", " \"(music)\",\n", " \"(applause)\",\n", " \"(laughter)\",\n", "]\n", "\n", "\n", "def format_speaker(speaker, text):\n", " return f\"{speaker}: {text}\"\n", "\n", "\n", "with gr.Blocks(title=\"Audio Diarization Demo\") as demo:\n", " with gr.Row():\n", " with gr.Column(scale=1):\n", " audio_input = gr.Audio(\n", " label=\"Upload Audio File\",\n", " type=\"filepath\",\n", " sources=[\"upload\", \"microphone\"],\n", " )\n", "\n", " process_btn = gr.Button(\"\ud83d\udd0d Analyze Speakers\", variant=\"primary\", size=\"lg\")\n", "\n", " with gr.Column(scale=2):\n", " dialogue_output = gr.Dialogue(\n", " speakers=speakers,\n", " tags=tags,\n", " formatter=format_speaker,\n", " label=\"AI-generated speaker-separated conversation\",\n", " value=[],\n", " )\n", "\n", " process_btn.click(fn=process_audio, inputs=[audio_input], outputs=[dialogue_output])\n", "\n", "if __name__ == \"__main__\":\n", " demo.launch()\n"]}], "metadata": {}, "nbformat": 4, "nbformat_minor": 5}

run.py ADDED Viewed

	@@ -0,0 +1,126 @@

+# type: ignore
+import gradio as gr
+from pyannote.audio import Pipeline
+import whisper
+diarization_pipeline = None
+whisper_model = None
+def load_models():
+    global diarization_pipeline, whisper_model  # noqa: PLW0603
+    if diarization_pipeline is None:
+        diarization_pipeline = Pipeline.from_pretrained(
+            "pyannote/speaker-diarization-3.1", use_auth_token=True
+        )
+    if whisper_model is None:
+        whisper_model = whisper.load_model("base")
+def real_diarization(audio_file_path: str) -> list[dict[str, str]]:
+    try:
+        load_models()
+        if diarization_pipeline is None or whisper_model is None:
+            raise Exception("Failed to load models")
+        diarization = diarization_pipeline(audio_file_path)
+        transcription = whisper_model.transcribe(audio_file_path)
+        segments = transcription["segments"]
+        dialogue_segments = []
+        speaker_mapping = {}
+        speaker_counter = 1
+        for segment in segments:
+            start_time = segment["start"]
+            end_time = segment["end"]
+            text = segment["text"].strip()
+            speaker = "Speaker 1"
+            for turn, _, speaker_label in diarization.itertracks(yield_label=True):
+                if (
+                    turn.start <= start_time <= turn.end
+                    or turn.start <= end_time <= turn.end
+                ):
+                    if speaker_label not in speaker_mapping:
+                        speaker_mapping[speaker_label] = f"Speaker {speaker_counter}"
+                        speaker_counter += 1
+                    speaker = speaker_mapping[speaker_label]
+                    break
+            if text:
+                dialogue_segments.append({"speaker": speaker, "text": text})
+        return dialogue_segments
+    except Exception as e:
+        print(f"Error in diarization: {str(e)}")
+        return []
+def process_audio(audio_file):
+    if audio_file is None:
+        gr.Warning("Please upload an audio file first.")
+        return []
+    try:
+        dialogue_segments = real_diarization(audio_file)
+        return dialogue_segments
+    except Exception as e:
+        gr.Error(f"Error processing audio: {str(e)}")
+        return []
+speakers = [
+    "Speaker 1",
+    "Speaker 2",
+    "Speaker 3",
+    "Speaker 4",
+    "Speaker 5",
+    "Speaker 6",
+]
+tags = [
+    "(pause)",
+    "(background noise)",
+    "(unclear)",
+    "(overlap)",
+    "(phone ringing)",
+    "(door closing)",
+    "(music)",
+    "(applause)",
+    "(laughter)",
+]
+def format_speaker(speaker, text):
+    return f"{speaker}: {text}"
+with gr.Blocks(title="Audio Diarization Demo") as demo:
+    with gr.Row():
+        with gr.Column(scale=1):
+            audio_input = gr.Audio(
+                label="Upload Audio File",
+                type="filepath",
+                sources=["upload", "microphone"],
+            )
+            process_btn = gr.Button("🔍 Analyze Speakers", variant="primary", size="lg")
+        with gr.Column(scale=2):
+            dialogue_output = gr.Dialogue(
+                speakers=speakers,
+                tags=tags,
+                formatter=format_speaker,
+                label="AI-generated speaker-separated conversation",
+                value=[],
+            )
+    process_btn.click(fn=process_audio, inputs=[audio_input], outputs=[dialogue_output])
+if __name__ == "__main__":
+    demo.launch()