Spaces:

GavinHuang
/

asr-whisper

Sleeping

App Files Files Community

GavinHuang commited on May 5

Commit

51c343c

1 Parent(s): 19576da

Refactor transcription logic to remove unnecessary state management and simplify audio processing

Browse files

Files changed (1) hide show

app.py +8 -24

app.py CHANGED Viewed

@@ -24,7 +24,6 @@ processor = AutoProcessor.from_pretrained(MODEL_ID)
 audio_buffer = deque()
 buffer_duration = 0.0
 last_transcription = ""
-is_running = False
 def process_audio_chunk(audio_chunk):
     """Process a single audio chunk and update buffer."""
@@ -45,7 +44,7 @@ def transcribe_audio():
     overlap_samples = int(OVERLAP_SECONDS * RATE)
     step_samples = window_samples - overlap_samples  # Step size for sliding window
-    while is_running and buffer_duration >= WINDOW_SECONDS:
         # Concatenate buffer into a window
         audio_window = np.concatenate(list(audio_buffer))
         audio_window = audio_window[:window_samples]  # Trim to window size
@@ -77,10 +76,6 @@ def transcribe_audio():
 @spaces.GPU
 def audio_stream(audio):
     """Handle streaming audio input from Gradio."""
-    global is_running
-    if not is_running:
-        return "Please start transcription."
     # Audio is a tuple (sample_rate, data) from Gradio
     sample_rate, audio_data = audio
@@ -95,35 +90,24 @@ def audio_stream(audio):
     for transcription in transcribe_audio():
         yield transcription
-def start_transcription():
-    """Start the transcription process."""
-    global is_running, audio_buffer, buffer_duration, last_transcription
-    is_running = True
     audio_buffer = deque()
     buffer_duration = 0.0
     last_transcription = ""
-    return "Transcription started. Speak into the microphone."
-def stop_transcription():
-    """Stop the transcription process."""
-    global is_running
-    is_running = False
-    return "Transcription stopped."
 # Gradio interface
 with gr.Blocks() as demo:
     gr.Markdown("# Real-Time Speech-to-Text with Whisper")
     gr.Markdown("Record audio using the microphone and see transcriptions in real-time. Hosted on Hugging Face Spaces with ZeroGPU.")
-    with gr.Row():
-        start_btn = gr.Button("Start Transcription")
-        stop_btn = gr.Button("Stop Transcription")
     audio_input = gr.Audio(sources=["microphone"], streaming=True, label="Speak Here")
-    output_text = gr.Textbox(label="Transcription", interactive=False)
-    start_btn.click(start_transcription, outputs=output_text)
-    stop_btn.click(stop_transcription, outputs=output_text)
     audio_input.stream(audio_stream, inputs=audio_input, outputs=output_text)
 # Launch the app

 audio_buffer = deque()
 buffer_duration = 0.0
 last_transcription = ""
 def process_audio_chunk(audio_chunk):
     """Process a single audio chunk and update buffer."""
     overlap_samples = int(OVERLAP_SECONDS * RATE)
     step_samples = window_samples - overlap_samples  # Step size for sliding window
+    while buffer_duration >= WINDOW_SECONDS:
         # Concatenate buffer into a window
         audio_window = np.concatenate(list(audio_buffer))
         audio_window = audio_window[:window_samples]  # Trim to window size
 @spaces.GPU
 def audio_stream(audio):
     """Handle streaming audio input from Gradio."""
     # Audio is a tuple (sample_rate, data) from Gradio
     sample_rate, audio_data = audio
     for transcription in transcribe_audio():
         yield transcription
+# Initialize application state
+def init_app():
+    """Initialize the application state."""
+    global audio_buffer, buffer_duration, last_transcription
     audio_buffer = deque()
     buffer_duration = 0.0
     last_transcription = ""
+    return "Transcription is active. Speak into the microphone."
 # Gradio interface
 with gr.Blocks() as demo:
     gr.Markdown("# Real-Time Speech-to-Text with Whisper")
     gr.Markdown("Record audio using the microphone and see transcriptions in real-time. Hosted on Hugging Face Spaces with ZeroGPU.")
     audio_input = gr.Audio(sources=["microphone"], streaming=True, label="Speak Here")
+    output_text = gr.Textbox(label="Transcription", value="Transcription is active. Speak into the microphone.", interactive=False)
+    demo.load(init_app, outputs=output_text)
     audio_input.stream(audio_stream, inputs=audio_input, outputs=output_text)
 # Launch the app