Spaces:

blasisd
/

talk-globe

Sleeping

App Files Files Community

blasisd commited on Apr 27

Commit

86f88a9

1 Parent(s): 4145f35

Removed thread lock, changed concurrency limit and added time limit

Browse files

Files changed (1) hide show

src/app.py +20 -28

src/app.py CHANGED Viewed

@@ -1,14 +1,11 @@
 import os
 from pathlib import Path
-from threading import Lock
 import pandas as pd
 import torchaudio
 import torch
 import numpy as np
 import gradio as gr
 from dotenv import load_dotenv
@@ -18,7 +15,6 @@ from fastrtc import (
     WebRTC,
     ReplyOnPause,
 )
 from transformers import AutoProcessor, SeamlessM4Tv2Model
@@ -31,7 +27,6 @@ processor = AutoProcessor.from_pretrained("facebook/seamless-m4t-v2-large")
 model = SeamlessM4Tv2Model.from_pretrained("facebook/seamless-m4t-v2-large")
 default_sampling_rate = 16_000
-translate_lock = Lock()
 HF_TOKEN = os.getenv("HF_TOKEN")
@@ -53,30 +48,26 @@ def translate_audio(
     :yield: the tuple containing the sampling rate and the audio array
     :rtype: tuple[int, np.ndarray]
     """
-    with translate_lock:
-        orig_freq, np_array = audio
-        waveform = torch.from_numpy(np_array)
-        waveform = waveform.to(torch.float32)
-        waveform = waveform / 32768.0  # normalize int16 to [-1, 1]
-        audio = torchaudio.functional.resample(
-            waveform, orig_freq=orig_freq, new_freq=default_sampling_rate
-        )  # must be a 16 kHz waveform array
-        audio_inputs = processor(
-            audios=audio,
-            return_tensors="pt",
-            sampling_rate=default_sampling_rate,
-        )
-        audio_array_from_audio = (
-            model.generate(**audio_inputs, tgt_lang=tgt_language)[0]
-            .cpu()
-            .numpy()
-            .squeeze()
-        )
-        yield (default_sampling_rate, audio_array_from_audio)
 # Supported target languages for speech
@@ -215,7 +206,8 @@ with gr.Blocks(
                     ReplyOnPause(translate_audio),
                     inputs=[audio, target_lang],
                     outputs=[audio],
-                    concurrency_limit=1,  # Important: Set to 1 to prevent overlapping executions
                 )
     # Sticky footer (will stay at bottom on all screen sizes)

 import os
 from pathlib import Path
 import pandas as pd
 import torchaudio
 import torch
 import numpy as np
 import gradio as gr
 from dotenv import load_dotenv
     WebRTC,
     ReplyOnPause,
 )
 from transformers import AutoProcessor, SeamlessM4Tv2Model
 model = SeamlessM4Tv2Model.from_pretrained("facebook/seamless-m4t-v2-large")
 default_sampling_rate = 16_000
 HF_TOKEN = os.getenv("HF_TOKEN")
     :yield: the tuple containing the sampling rate and the audio array
     :rtype: tuple[int, np.ndarray]
     """
+    orig_freq, np_array = audio
+    waveform = torch.from_numpy(np_array)
+    waveform = waveform.to(torch.float32)
+    waveform = waveform / 32768.0  # normalize int16 to [-1, 1]
+    audio = torchaudio.functional.resample(
+        waveform, orig_freq=orig_freq, new_freq=default_sampling_rate
+    )  # must be a 16 kHz waveform array
+    audio_inputs = processor(
+        audios=audio,
+        return_tensors="pt",
+        sampling_rate=default_sampling_rate,
+    )
+    audio_array_from_audio = (
+        model.generate(**audio_inputs, tgt_lang=tgt_language)[0].cpu().numpy().squeeze()
+    )
+    yield (default_sampling_rate, audio_array_from_audio)
 # Supported target languages for speech
                     ReplyOnPause(translate_audio),
                     inputs=[audio, target_lang],
                     outputs=[audio],
+                    concurrency_limit=5,
+                    time_limit=60,
                 )
     # Sticky footer (will stay at bottom on all screen sizes)