Spaces:

fahadqazi
/

Sindhi-Text-to-Speech

Running

fahadqazi commited on Feb 13

Commit

0629797

verified ·

1 Parent(s): f484f3a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,10 +9,11 @@ from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5Hif
 from speechbrain.pretrained import EncoderClassifier
 from datasets import load_dataset
-import time
-import wave
-from pathlib import Path
-from piper.PiperVoice import PiperVoice  # Ensure you have PiperVoice imported correctly
@@ -115,19 +116,31 @@ def text_to_speech(text, audio_file=None):
     # Normalize the input text
     normalized_text = normalize_text(text)
-    # Prepare the input for the model
-    inputs = processor(text=normalized_text, return_tensors="pt").to(device)
-    # Use the default speaker embedding
-    speaker_embeddings = default_embedding
     # Generate speech
-    with torch.no_grad():
-        speech = model.generate_speech(inputs["input_ids"], speaker_embeddings.unsqueeze(0), vocoder=vocoder)
-    speech_np = speech.cpu().numpy()
-    return (16000, speech_np)
 iface = gr.Interface(
     fn=text_to_speech,

 from speechbrain.pretrained import EncoderClassifier
 from datasets import load_dataset
+from piper_tts import Piper
+# Initialize the Piper TTS engine
+tts = Piper()
     # Normalize the input text
     normalized_text = normalize_text(text)
+    # # Prepare the input for the model
+    # inputs = processor(text=normalized_text, return_tensors="pt").to(device)
+    # # Use the default speaker embedding
+    # speaker_embeddings = default_embedding
+    # # Generate speech
+    # with torch.no_grad():
+    #     speech = model.generate_speech(inputs["input_ids"], speaker_embeddings.unsqueeze(0), vocoder=vocoder)
+    # speech_np = speech.cpu().numpy()
+    # return (16000, speech_np)
     # Generate speech
+    audio = tts.synthesize(normalized_text)
+    # Save the audio to a file
+    # with open("output.wav", "wb") as f:
+    #     f.write(audio)
+    # return audio_file
+    return audio
 iface = gr.Interface(
     fn=text_to_speech,