Spaces:

Nick021402
/

Voice2PersonaAI

Running

App Files Files Community

Nick021402 commited on May 20

Commit

d914104

verified ·

1 Parent(s): 67dd37a

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -21

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import gradio as gr
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 import torch
-import numpy as np
 # Load pretrained model and processor
 processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
@@ -11,28 +11,15 @@ device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
 # Transcription function
-def transcribe(audio):
-    if audio is None:
         return "Please upload or record an audio file."
-    # audio is a tuple: (numpy_array, sample_rate)
-    if isinstance(audio, tuple):
-        audio_np, sample_rate = audio
-    else:
-        return "Invalid audio input."
-    # Convert to mono if stereo
-    if len(audio_np.shape) > 1:
-        audio_np = np.mean(audio_np, axis=1)
-    # Resample to 16000 Hz if necessary
-    if sample_rate != 16000:
-        import librosa
-        audio_np = librosa.resample(audio_np, orig_sr=sample_rate, target_sr=16000)
-        sample_rate = 16000
-    # Process and run model
-    input_values = processor(audio_np, sampling_rate=sample_rate, return_tensors="pt").input_values.to(device)
     with torch.no_grad():
         logits = model(input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
@@ -45,7 +32,7 @@ with gr.Blocks(theme=gr.themes.Soft()) as app:
     gr.Markdown("Upload or record your voice, and this app will transcribe what you say.")
     with gr.Row():
-        audio_input = gr.Audio(label="🎤 Record or Upload Your Voice", type="numpy", streaming=False)
         output_text = gr.Textbox(label="📝 Transcribed Text")
     transcribe_button = gr.Button("Transcribe")

 import gradio as gr
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 import torch
+import librosa
 # Load pretrained model and processor
 processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
 model.to(device)
 # Transcription function
+def transcribe(audio_path):
+    if audio_path is None:
         return "Please upload or record an audio file."
+    # Load audio file and resample to 16kHz mono
+    audio_np, sample_rate = librosa.load(audio_path, sr=16000)
+    # Process and transcribe
+    input_values = processor(audio_np, sampling_rate=16000, return_tensors="pt").input_values.to(device)
     with torch.no_grad():
         logits = model(input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
     gr.Markdown("Upload or record your voice, and this app will transcribe what you say.")
     with gr.Row():
+        audio_input = gr.Audio(label="🎤 Record or Upload Your Voice", type="filepath")
         output_text = gr.Textbox(label="📝 Transcribed Text")
     transcribe_button = gr.Button("Transcribe")