Spaces:

PineSearch
/

generateAudio

Paused

SAUL19 commited on Jun 23, 2023

Commit

e50afa4

1 Parent(s): 98757a9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -85,32 +85,35 @@ def generateAudio(text_to_audio, s3_save_as):
     def save_text_to_speech(text, speaker=None):
         # Preprocess text and recortar
         text = cut_text(text, max_tokens=500)
-        # preprocess text
-        inputs = processor(text=text, return_tensors="pt").to(device)
-        if speaker is not None:
-            # load xvector containing speaker's voice characteristics from a dataset
-            speaker_embeddings = torch.tensor(
-                embeddings_dataset[speaker]["xvector"]).unsqueeze(0).to(device)
-        else:
-            # random vector, meaning a random voice
-            speaker_embeddings = torch.randn((1, 512)).to(device)
-        # generate speech with the models
-        speech = model.generate_speech(
-            inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
-        # create BytesIO object to store the audio
         audio_buffer = BytesIO()
-        # save the generated speech to the BytesIO buffer
-        sf.write(audio_buffer, speech.cpu().numpy(), samplerate=16000, format='WAV')
         audio_buffer.seek(0)
-        # Save the audio to S3
         save_audio_to_s3(audio_buffer)
     save_text_to_speech(text_to_audio, 2271)
     return s3_save_as
-iface = gr.Interface(fn=generateAudio, inputs=[Textbox(label="text_to_audio"), Textbox(label="S3url")], outputs="text")
 iface.launch()

     def save_text_to_speech(text, speaker=None):
         # Preprocess text and recortar
         text = cut_text(text, max_tokens=500)
+        # Divide el texto en segmentos de 100 caracteres
+        segmentos = [text[i:i+100] for i in range(0, len(text), 100)]
+        # Generar audio para cada segmento y combinarlos
+        audio_segments = []
+        for segment in segmentos:
+            inputs = processor(text=segment, return_tensors="pt").to(device)
+            if speaker is not None:
+                speaker_embeddings = torch.tensor(embeddings_dataset[speaker]["xvector"]).unsqueeze(0).to(device)
+            else:
+                speaker_embeddings = torch.randn((1, 512)).to(device)
+            speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
+            audio_segments.append(speech)
+        combined_audio = torch.cat(audio_segments, dim=1)
+        # Crear objeto BytesIO para almacenar el audio
         audio_buffer = BytesIO()
+        sf.write(audio_buffer, combined_audio.cpu().numpy(), samplerate=16000, format='WAV')
         audio_buffer.seek(0)
+        # Guardar el audio combinado en S3
         save_audio_to_s3(audio_buffer)
     save_text_to_speech(text_to_audio, 2271)
     return s3_save_as
+iface = gr.Interface(fn=generateAudio, inputs=[Textbox(label="text_to_audio"), Textbox(label="S3url")], outputs="text", title="Text-to-Audio")
 iface.launch()