Spaces:

blasisd
/

talk-globe

Sleeping

blasisd commited on Apr 27

Commit

349f722

1 Parent(s): bf8155b

Added thread lock to prevent overlapping executions

Files changed (1) hide show

src/app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import os
 from pathlib import Path
 import pandas as pd
@@ -30,6 +31,7 @@ processor = AutoProcessor.from_pretrained("facebook/seamless-m4t-v2-large")
 model = SeamlessM4Tv2Model.from_pretrained("facebook/seamless-m4t-v2-large")
 default_sampling_rate = 16_000
 HF_TOKEN = os.getenv("HF_TOKEN")
@@ -51,26 +53,30 @@ def translate_audio(
     :yield: the tuple containing the sampling rate and the audio array
     :rtype: tuple[int, np.ndarray]
     """
-    orig_freq, np_array = audio
-    waveform = torch.from_numpy(np_array)
-    waveform = waveform.to(torch.float32)
-    waveform = waveform / 32768.0  # normalize int16 to [-1, 1]
-    audio = torchaudio.functional.resample(
-        waveform, orig_freq=orig_freq, new_freq=default_sampling_rate
-    )  # must be a 16 kHz waveform array
-    audio_inputs = processor(
-        audios=audio,
-        return_tensors="pt",
-        sampling_rate=default_sampling_rate,
-    )
-    audio_array_from_audio = (
-        model.generate(**audio_inputs, tgt_lang=tgt_language)[0].cpu().numpy().squeeze()
-    )
-    yield (default_sampling_rate, audio_array_from_audio)
 # Supported target languages for speech

 import os
 from pathlib import Path
+from threading import Lock
 import pandas as pd
 model = SeamlessM4Tv2Model.from_pretrained("facebook/seamless-m4t-v2-large")
 default_sampling_rate = 16_000
+translate_lock = Lock()
 HF_TOKEN = os.getenv("HF_TOKEN")
     :yield: the tuple containing the sampling rate and the audio array
     :rtype: tuple[int, np.ndarray]
     """
+    with translate_lock:
+        orig_freq, np_array = audio
+        waveform = torch.from_numpy(np_array)
+        waveform = waveform.to(torch.float32)
+        waveform = waveform / 32768.0  # normalize int16 to [-1, 1]
+        audio = torchaudio.functional.resample(
+            waveform, orig_freq=orig_freq, new_freq=default_sampling_rate
+        )  # must be a 16 kHz waveform array
+        audio_inputs = processor(
+            audios=audio,
+            return_tensors="pt",
+            sampling_rate=default_sampling_rate,
+        )
+        audio_array_from_audio = (
+            model.generate(**audio_inputs, tgt_lang=tgt_language)[0]
+            .cpu()
+            .numpy()
+            .squeeze()
+        )
+        yield (default_sampling_rate, audio_array_from_audio)
 # Supported target languages for speech