Spaces:

birgermoell
/

kb-whisper-demo

Running

App Files Files Community

birgermoell commited on Feb 20

Commit

ecedb67

verified ·

1 Parent(s): de327a5

Update app.py

Browse files

Files changed (1) hide show

app.py +59 -61

app.py CHANGED Viewed

@@ -1,63 +1,61 @@
 import streamlit as st
-import torch
-import tempfile
 import os
-from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
-from audiorecorder import audiorecorder
-from pydub import AudioSegment
-# Setup model
-device = "cuda:0" if torch.cuda.is_available() else "cpu"
-torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
-model_id = "KBLab/kb-whisper-tiny"
-@st.cache_resource
-def load_model():
-    model = AutoModelForSpeechSeq2Seq.from_pretrained(
-        model_id, torch_dtype=torch_dtype, use_safetensors=True, cache_dir="cache"
-    )
-    model.to(device)
-    processor = AutoProcessor.from_pretrained(model_id)
-    return pipeline(
-        "automatic-speech-recognition",
-        model=model,
-        tokenizer=processor.tokenizer,
-        feature_extractor=processor.feature_extractor,
-        torch_dtype=torch_dtype,
-        device=device,
-    )
-pipe = load_model()
-def transcribe_audio(audio_path):
-    return pipe(audio_path, chunk_length_s=30, generate_kwargs={"task": "transcribe", "language": "sv"})
-st.title("Speech-to-Text Transcription")
-# Audio recording
-st.subheader("Record Audio")
-recorded_audio = audiorecorder("Start Recording", "Stop Recording")
-if recorded_audio:
-    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as temp_file:
-        temp_file.write(recorded_audio.tobytes())
-        temp_file_path = temp_file.name
-    st.audio(temp_file_path, format="audio/wav")
-    result = transcribe_audio(temp_file_path)
-    st.write("### Transcription:")
-    st.write(result["text"])
-    os.remove(temp_file_path)
-# File upload
-st.subheader("Upload Audio File")
-uploaded_file = st.file_uploader("Choose an audio file", type=["wav", "mp3", "ogg", "flac"])
-if uploaded_file:
-    with tempfile.NamedTemporaryFile(delete=False, suffix=os.path.splitext(uploaded_file.name)[-1]) as temp_file:
-        temp_file.write(uploaded_file.read())
-        temp_file_path = temp_file.name
-    st.audio(temp_file_path)
-    result = transcribe_audio(temp_file_path)
-    st.write("### Transcription:")
-    st.write(result["text"])
-    os.remove(temp_file_path)

 import streamlit as st
 import os
+import base64
+import uuid
+st.title("Record Audio in Browser")
+# JavaScript to record audio
+audio_recorder_js = """
+<script>
+let mediaRecorder;
+let audioChunks = [];
+function startRecording() {
+    navigator.mediaDevices.getUserMedia({ audio: true })
+        .then(stream => {
+            mediaRecorder = new MediaRecorder(stream);
+            mediaRecorder.ondataavailable = event => {
+                audioChunks.push(event.data);
+            };
+            mediaRecorder.onstop = () => {
+                const audioBlob = new Blob(audioChunks, { type: 'audio/wav' });
+                const reader = new FileReader();
+                reader.readAsDataURL(audioBlob);
+                reader.onloadend = () => {
+                    const base64AudioMessage = reader.result.split(',')[1];
+                    fetch('/save_audio', {
+                        method: 'POST',
+                        body: JSON.stringify({ audio: base64AudioMessage }),
+                        headers: { 'Content-Type': 'application/json' }
+                    }).then(response => response.json()).then(data => {
+                        console.log(data);
+                    });
+                };
+            };
+            mediaRecorder.start();
+        });
+}
+function stopRecording() {
+    mediaRecorder.stop();
+}
+</script>
+<button onclick="startRecording()">Start Recording</button>
+<button onclick="stopRecording()">Stop Recording</button>
+"""
+st.components.v1.html(audio_recorder_js)
+# Backend to save audio
+if "audio_data" not in st.session_state:
+    st.session_state["audio_data"] = None
+if st.session_state["audio_data"]:
+    audio_bytes = base64.b64decode(st.session_state["audio_data"])
+    file_name = f"recording_{uuid.uuid4()}.wav"
+    with open(file_name, "wb") as f:
+        f.write(audio_bytes)
+    st.audio(file_name, format="audio/wav")
+    st.success(f"Audio saved as {file_name}")