Spaces:

k2-fsa
/

speaker-diarization

Running

csukuangfj commited on Oct 14, 2024

Commit

c64aaa1

1 Parent(s): da4b8f8

add wavs

Files changed (3) hide show

app.py CHANGED Viewed

@@ -21,22 +21,35 @@
 import logging
 import os
 import time
 import uuid
 from datetime import datetime
 import gradio as gr
 from model import (
     embedding2models,
     get_speaker_diarization,
     read_wave,
     speaker_segmentation_models,
 )
-from examples import examples
 embedding_frameworks = list(embedding2models.keys())
 def MyPrint(s):
     now = datetime.now()
@@ -288,6 +301,20 @@ with demo:
             uploaded_output = gr.Textbox(label="Result from uploaded file")
             uploaded_html_info = gr.HTML(label="Info")
         upload_button.click(
             process_uploaded_file,
             inputs=[

 import logging
 import os
+import shutil
 import time
 import uuid
 from datetime import datetime
 import gradio as gr
+from examples import examples
 from model import (
     embedding2models,
+    get_file,
     get_speaker_diarization,
     read_wave,
     speaker_segmentation_models,
 )
 embedding_frameworks = list(embedding2models.keys())
+waves = [e[-1] for e in examples]
+for name in waves:
+    filename = get_file(
+        "k2-fsa/speaker-diarization",
+        name,
+        subfolder="test_wavs",
+    )
+    shutil.copyfile(filename, name)
 def MyPrint(s):
     now = datetime.now()
             uploaded_output = gr.Textbox(label="Result from uploaded file")
             uploaded_html_info = gr.HTML(label="Info")
+            gr.Examples(
+                examples=examples,
+                inputs=[
+                    embedding_framework_radio,
+                    embedding_model_dropdown,
+                    speaker_segmentation_model_dropdown,
+                    input_num_speakers,
+                    input_threshold,
+                    uploaded_file,
+                ],
+                outputs=[uploaded_output, uploaded_html_info],
+                fn=process_uploaded_file,
+            )
         upload_button.click(
             process_uploaded_file,
             inputs=[

examples.py CHANGED Viewed

@@ -5,6 +5,6 @@ examples = [
         "pyannote/segmentation-3.0",
         "4",
         "0",
-        "./test_wavs/0-four-speakers-zh.wav",
     ],
 ]

         "pyannote/segmentation-3.0",
         "4",
         "0",
+        "./0-four-speakers-zh.wav",
     ],
 ]

model.py CHANGED Viewed

@@ -49,7 +49,7 @@ def read_wave(wave_filename: str) -> Tuple[np.ndarray, int]:
 @lru_cache(maxsize=30)
-def _get_nn_model_filename(
     repo_id: str,
     filename: str,
     subfolder: str = ".",
@@ -66,7 +66,7 @@ def get_speaker_segmentation_model(repo_id) -> str:
     assert repo_id in ("pyannote/segmentation-3.0",)
     if repo_id == "pyannote/segmentation-3.0":
-        return _get_nn_model_filename(
             repo_id="csukuangfj/sherpa-onnx-pyannote-segmentation-3-0",
             filename="model.onnx",
         )
@@ -81,7 +81,7 @@ def get_speaker_embedding_model(model_name) -> str:
     )
     model_name = model_name.split("|")[0]
-    return _get_nn_model_filename(
         repo_id="csukuangfj/speaker-embedding-models",
         filename=model_name,
     )

 @lru_cache(maxsize=30)
+def get_file(
     repo_id: str,
     filename: str,
     subfolder: str = ".",
     assert repo_id in ("pyannote/segmentation-3.0",)
     if repo_id == "pyannote/segmentation-3.0":
+        return get_file(
             repo_id="csukuangfj/sherpa-onnx-pyannote-segmentation-3-0",
             filename="model.onnx",
         )
     )
     model_name = model_name.split("|")[0]
+    return get_file(
         repo_id="csukuangfj/speaker-embedding-models",
         filename=model_name,
     )