Spaces:

k2-fsa
/

speaker-diarization

Running

App Files Files Community

csukuangfj commited on Oct 14, 2024

Commit

d2cc323

1 Parent(s): 80e7e4c

minor fixes

Browse files

Files changed (2) hide show

app.py +12 -3
model.py +9 -7

app.py CHANGED Viewed

@@ -89,7 +89,7 @@ def process_uploaded_file(
             "result_item_error",
         )
-    if input_num_speakers < 0:
         try:
             input_threshold = float(input_threshold)
             if input_threshold < 0 or input_threshold > 10:
@@ -142,7 +142,7 @@ def process(
     audio, sample_rate = read_wave(filename)
-    MyPrint("audio", audio.shape, sample_rate)
     sd = get_speaker_diarization(
         segmentation_model=speaker_segmentation_model,
@@ -150,7 +150,7 @@ def process(
         num_clusters=input_num_speakers,
         threshold=input_threshold,
     )
-    MyPrint(f"{audio.shape / sd.sample_rate}, {sample_rate}")
     segments = sd.process(audio).sort_by_start_time()
     s = ""
@@ -194,6 +194,15 @@ See more information by visiting
 If you want to try it on Android, please download pre-built Android
 APKs for speaker diarzation by visiting
 <https://k2-fsa.github.io/sherpa/onnx/speaker-diarization/android.html>
 """
 # css style is copied from

             "result_item_error",
         )
+    if input_num_speakers <= 0:
         try:
             input_threshold = float(input_threshold)
             if input_threshold < 0 or input_threshold > 10:
     audio, sample_rate = read_wave(filename)
+    MyPrint(f"audio, {audio.shape}, {sample_rate}")
     sd = get_speaker_diarization(
         segmentation_model=speaker_segmentation_model,
         num_clusters=input_num_speakers,
         threshold=input_threshold,
     )
+    MyPrint(f"{audio.shape[0] / sd.sample_rate}, {sample_rate}")
     segments = sd.process(audio).sort_by_start_time()
     s = ""
 If you want to try it on Android, please download pre-built Android
 APKs for speaker diarzation by visiting
 <https://k2-fsa.github.io/sherpa/onnx/speaker-diarization/android.html>
+---
+Note about the two arguments:
+    - number of speakers: If you know the actual number of speakers in the input file,
+      please provide it. Otherwise, please set it to 0
+    - clustering threshold: Used only when number of speakers is 0. A larger
+      threshold results in fewer clusters, i.e., fewer speakers.
 """
 # css style is copied from

model.py CHANGED Viewed

@@ -16,7 +16,7 @@
 import wave
 from functools import lru_cache
-from typing import List, Tuple
 import numpy as np
 import sherpa_onnx
@@ -62,7 +62,7 @@ def _get_nn_model_filename(
     return nn_model_filename
-def get_speaker_segmentation_model(repo_id) -> List[str]:
     assert repo_id in ("pyannote/segmentation-3.0",)
     if repo_id == "pyannote/segmentation-3.0":
@@ -72,14 +72,14 @@ def get_speaker_segmentation_model(repo_id) -> List[str]:
         )
-def get_speaker_embedding_model(model_name) -> List[str]:
-    model_name = model_name.split("|")[0]
     assert (
         model_name
         in three_d_speaker_embedding_models
         + nemo_speaker_embedding_models
         + wespeaker_embedding_models
     )
     return _get_nn_model_filename(
         repo_id="csukuangfj/speaker-embedding-models",
@@ -92,16 +92,18 @@ def get_speaker_diarization(
 ):
     segmentation = get_speaker_segmentation_model(segmentation_model)
     embedding = get_speaker_embedding_model(embedding_model)
-    print("segmentation", segmentation)
-    print("embedding", embedding)
     config = sherpa_onnx.OfflineSpeakerDiarizationConfig(
         segmentation=sherpa_onnx.OfflineSpeakerSegmentationModelConfig(
             pyannote=sherpa_onnx.OfflineSpeakerSegmentationPyannoteModelConfig(
                 model=segmentation
             ),
         ),
-        embedding=sherpa_onnx.SpeakerEmbeddingExtractorConfig(model=embedding),
         clustering=sherpa_onnx.FastClusteringConfig(
             num_clusters=num_clusters,
             threshold=threshold,

 import wave
 from functools import lru_cache
+from typing import Tuple
 import numpy as np
 import sherpa_onnx
     return nn_model_filename
+def get_speaker_segmentation_model(repo_id) -> str:
     assert repo_id in ("pyannote/segmentation-3.0",)
     if repo_id == "pyannote/segmentation-3.0":
         )
+def get_speaker_embedding_model(model_name) -> str:
     assert (
         model_name
         in three_d_speaker_embedding_models
         + nemo_speaker_embedding_models
         + wespeaker_embedding_models
     )
+    model_name = model_name.split("|")[0]
     return _get_nn_model_filename(
         repo_id="csukuangfj/speaker-embedding-models",
 ):
     segmentation = get_speaker_segmentation_model(segmentation_model)
     embedding = get_speaker_embedding_model(embedding_model)
     config = sherpa_onnx.OfflineSpeakerDiarizationConfig(
         segmentation=sherpa_onnx.OfflineSpeakerSegmentationModelConfig(
             pyannote=sherpa_onnx.OfflineSpeakerSegmentationPyannoteModelConfig(
                 model=segmentation
             ),
+            debug=True,
+        ),
+        embedding=sherpa_onnx.SpeakerEmbeddingExtractorConfig(
+            model=embedding,
+            debug=True,
         ),
         clustering=sherpa_onnx.FastClusteringConfig(
             num_clusters=num_clusters,
             threshold=threshold,