Spaces:

fahadqazi
/

Sindhi-Text-to-Speech

Running

App Files Files Community

fahadqazi commited on Dec 30, 2024

Commit

cec247a

verified ·

1 Parent(s): 98f7469

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -26

app.py CHANGED Viewed

@@ -5,10 +5,11 @@ import spaces
 import os
 import numpy as np
 import re
-from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 from speechbrain.pretrained import EncoderClassifier
 from datasets import load_dataset
 device = "cuda" if torch.cuda.is_available() else "cpu"
 def load_models_and_data():
@@ -20,38 +21,17 @@ def load_models_and_data():
     model = SpeechT5ForTextToSpeech.from_pretrained("fahadqazi/testts1234").to(device)
     vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan").to(device)
-    spk_model_name = "speechbrain/spkrec-xvect-voxceleb"
-    speaker_model = EncoderClassifier.from_hparams(
-        source=spk_model_name,
-        run_opts={"device": device},
-        savedir=os.path.join("/tmp", spk_model_name),
-    )
-    # Load a sample from a dataset for default embedding
-    dataset = load_dataset("erenfazlioglu/turkishvoicedataset", split="train")
-    example = dataset[304]
-    return model, processor, vocoder, speaker_model, example
-model, processor, vocoder, speaker_model, default_example = load_models_and_data()
-# def create_speaker_embedding(waveform):
-#     with torch.no_grad():
-#         speaker_embeddings = speaker_model.encode_batch(torch.tensor(waveform).unsqueeze(0).to(device))
-#         speaker_embeddings = torch.nn.functional.normalize(speaker_embeddings, dim=2)
-#         speaker_embeddings = speaker_embeddings.squeeze()
-#     return speaker_embeddings
-# def prepare_default_embedding(example):
-#     audio = example["audio"]
-#     return create_speaker_embedding(audio["array"])
 embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
 speaker_embeddings = embeddings_dataset[7306]["xvector"]
 speaker_embeddings = torch.tensor(speaker_embeddings).to(device)
-default_embedding = speaker_embeddings #prepare_default_embedding(default_example)
 # replacements = [
 #     ("â", "a"),  # Long a

 import os
 import numpy as np
 import re
+from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan, AutoTokenizer
 from speechbrain.pretrained import EncoderClassifier
 from datasets import load_dataset
 device = "cuda" if torch.cuda.is_available() else "cpu"
 def load_models_and_data():
     model = SpeechT5ForTextToSpeech.from_pretrained("fahadqazi/testts1234").to(device)
     vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan").to(device)
+    return model, processor, vocoder
+model, processor, vocoder = load_models_and_data()
 embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
 speaker_embeddings = embeddings_dataset[7306]["xvector"]
 speaker_embeddings = torch.tensor(speaker_embeddings).to(device)
+default_embedding = speaker_embeddings
 # replacements = [
 #     ("â", "a"),  # Long a