Spaces:

bobpopboom
/

audio1test

Sleeping

hashhac commited on Mar 15

Commit

a70a34d

1 Parent(s): 6218f6a

changed input values

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,8 +2,9 @@ import gradio as gr
 import numpy as np
 import torch
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5ForSpeechToText
-from datasets import load_dataset
 import soundfile as sf
 # Check if CUDA is available, otherwise use CPU
 device = "cuda" if torch.cuda.is_available() else "cpu"
@@ -48,7 +49,7 @@ def demo():
             audio_data = audio_data.flatten().astype(np.float32) / 32768.0  # Normalize to [-1.0, 1.0]
             # Speech-to-text
-            transcript = speech_to_text(audio_data)
             print(f"Transcribed: {transcript}")
             # Generate response (for simplicity, echo the transcript)

 import numpy as np
 import torch
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5ForSpeechToText
 import soundfile as sf
+import tempfile
+import os
 # Check if CUDA is available, otherwise use CPU
 device = "cuda" if torch.cuda.is_available() else "cpu"
             audio_data = audio_data.flatten().astype(np.float32) / 32768.0  # Normalize to [-1.0, 1.0]
             # Speech-to-text
+            transcript = speech_to_text({"array": audio_data, "sampling_rate": sample_rate})
             print(f"Transcribed: {transcript}")
             # Generate response (for simplicity, echo the transcript)