Spaces:

Lorenzob
/

aurora-1.6b

Runtime error

App Files Files Community

Lorenzob commited on May 9

Commit

d98c95d

verified ·

1 Parent(s): 93bd931

Fix speaker embeddings for SpeechT5 model

Browse files

Files changed (1) hide show

app.py +61 -41

app.py CHANGED Viewed

@@ -21,10 +21,10 @@ MODEL_REPO = "Lorenzob/aurora-1.6b-complete"  # Repository del modello completo
 CACHE_DIR = "./model_cache"  # Directory per la cache del modello
 SAMPLE_RATE = 24000  # Frequenza di campionamento
-# Cache per il modello e il processor
 processor = None
 model = None
-speaker_embeddings = None
 def download_file(url, save_path):
     """Scarica un file da un URL"""
@@ -38,6 +38,45 @@ def download_file(url, save_path):
     return save_path
 def ensure_model_config():
     """Assicura che il modello abbia una configurazione corretta"""
     try:
@@ -75,21 +114,6 @@ def ensure_model_config():
         print(f"Errore nella configurazione del modello: {e}")
         return None
-def get_speaker_embeddings():
-    """Ottieni gli speaker embeddings per il modello TTS"""
-    global speaker_embeddings
-    if speaker_embeddings is None:
-        try:
-            # Crea gli speaker embeddings predefiniti (vettore di zeri)
-            speaker_embeddings = torch.zeros(1, 512)
-            print("Speaker embeddings creati con successo")
-        except Exception as e:
-            print(f"Errore nella creazione degli speaker embeddings: {e}")
-            speaker_embeddings = None
-    return speaker_embeddings
 def load_model_and_processor():
     """Carica il modello e il processor con caricamento manuale della configurazione"""
     global model, processor
@@ -150,6 +174,9 @@ def text_to_speech(text, language="it", speaker_id=0, speed=1.0, show_log=False)
         # Carica il modello e il processor
         model, processor = load_model_and_processor()
         # Controlla se stiamo usando il modello di Microsoft
         is_microsoft_model = "microsoft" in str(type(model))
@@ -158,16 +185,6 @@ def text_to_speech(text, language="it", speaker_id=0, speed=1.0, show_log=False)
             if show_log:
                 print("Utilizzo del modello Microsoft SpeechT5...")
-            # Carica speaker embeddings
-            speaker_embeddings_path = f"https://huggingface.co/datasets/Matthijs/cmu-arctic-xvectors/resolve/main/cmu_us_{speaker_id:02d}_xvector.pt"
-            try:
-                tmp_file = os.path.join(tempfile.gettempdir(), f"speaker_{speaker_id}.pt")
-                download_file(speaker_embeddings_path, tmp_file)
-                speaker_embeddings = torch.load(tmp_file)
-            except:
-                # Usa un embedding predefinito
-                speaker_embeddings = torch.zeros(1, 512)
             # Crea input IDs dal testo
             inputs = processor(text=text, return_tensors="pt")
@@ -175,7 +192,7 @@ def text_to_speech(text, language="it", speaker_id=0, speed=1.0, show_log=False)
             with torch.no_grad():
                 speech = model.generate_speech(
                     inputs["input_ids"],
-                    speaker_embeddings
                 )
             # Imposta la frequenza di campionamento
@@ -185,9 +202,6 @@ def text_to_speech(text, language="it", speaker_id=0, speed=1.0, show_log=False)
             if show_log:
                 print("Utilizzo del modello Aurora-1.6b-complete...")
-            # Ottieni gli speaker embeddings
-            speaker_emb = get_speaker_embeddings()
             # Prepara gli input
             inputs = processor(
                 text=text,
@@ -200,7 +214,10 @@ def text_to_speech(text, language="it", speaker_id=0, speed=1.0, show_log=False)
                 if hasattr(v, "to"):
                     inputs[k] = v.to(model.device)
-            # Genera il speech - NOTA: Qui non passiamo parametri non supportati
             with torch.no_grad():
                 if hasattr(model, "generate_speech") and callable(model.generate_speech):
                     # Usa generate_speech se disponibile
@@ -209,9 +226,10 @@ def text_to_speech(text, language="it", speaker_id=0, speed=1.0, show_log=False)
                         speaker_emb
                     )
                 else:
-                    # Altrimenti prova con generate
                     speech = model.generate(
-                        **inputs
                     )
             # Imposta la frequenza di campionamento
@@ -239,11 +257,11 @@ def text_to_speech(text, language="it", speaker_id=0, speed=1.0, show_log=False)
 # Esempi predefiniti per l'interfaccia
 examples = [
     ["Ciao, mi chiamo Aurora e sono un assistente vocale italiano.", "it", 0, 1.0, False],
-    ["Hello, my name is Aurora and I'm an Italian voice assistant.", "en", 0, 1.0, False],
-    ["Hola, me llamo Aurora y soy un asistente de voz italiano.", "es", 0, 1.0, False],
     ["La vita è bella e il sole splende nel cielo azzurro.", "it", 0, 1.0, False],
-    ["Mi piace viaggiare e scoprire nuove città e culture.", "it", 0, 1.2, False],
-    ["L'intelligenza artificiale sta trasformando il modo in cui interagiamo con i computer e con il mondo che ci circonda.", "it", 0, 0.9, False]
 ]
 # Definizione dell'interfaccia Gradio
@@ -272,13 +290,13 @@ with gr.Blocks(title="Aurora-1.6b TTS Demo", theme=gr.themes.Soft()) as demo:
                     value="it",
                     info="Seleziona la lingua del testo"
                 )
-                speaker_input = gr.Number(
                     label="Speaker ID",
                     value=0,
                     minimum=0,
-                    maximum=10,
                     step=1,
-                    info="ID dello speaker (solo per modelli multi-speaker)"
                 )
                 speed_input = gr.Slider(
                     minimum=0.5,
@@ -312,6 +330,7 @@ with gr.Blocks(title="Aurora-1.6b TTS Demo", theme=gr.themes.Soft()) as demo:
     - Il modello funziona meglio con frasi di lunghezza media (fino a 20-30 parole)
     - Per l'italiano, il modello è stato ottimizzato per una pronuncia naturale
     - La velocità di generazione dipende dalle risorse disponibili sul server
     ## 🔗 Crediti
@@ -320,6 +339,7 @@ with gr.Blocks(title="Aurora-1.6b TTS Demo", theme=gr.themes.Soft()) as demo:
     - [Lorenzob/aurora-1.6b](https://huggingface.co/Lorenzob/aurora-1.6b) (versione fine-tuned)
     - [Lorenzob/aurora-1.6b-complete](https://huggingface.co/Lorenzob/aurora-1.6b-complete) (versione completa con pesi)
     - [nari-labs/Dia-1.6B](https://huggingface.co/nari-labs/Dia-1.6B) (modello base originale)
     """)
     # Configurazione degli eventi

 CACHE_DIR = "./model_cache"  # Directory per la cache del modello
 SAMPLE_RATE = 24000  # Frequenza di campionamento
+# Cache per il modello, processor e speaker embeddings
 processor = None
 model = None
+speaker_embeddings_cache = {}
 def download_file(url, save_path):
     """Scarica un file da un URL"""
     return save_path
+def get_speaker_embeddings(speaker_id=0):
+    """Ottieni gli speaker embeddings dal dataset CMU Arctic"""
+    global speaker_embeddings_cache
+    if speaker_id in speaker_embeddings_cache:
+        return speaker_embeddings_cache[speaker_id]
+    try:
+        # Limita lo speaker_id a un intervallo valido (0-9)
+        speaker_id = max(0, min(9, speaker_id))
+        # Genera l'URL per gli embeddings
+        url = f"https://huggingface.co/datasets/Matthijs/cmu-arctic-xvectors/resolve/main/cmu_us_{speaker_id:02d}_xvector.pt"
+        # Crea un file temporaneo per gli embeddings
+        tmp_dir = os.path.join(CACHE_DIR, "speakers")
+        os.makedirs(tmp_dir, exist_ok=True)
+        tmp_file = os.path.join(tmp_dir, f"speaker_{speaker_id:02d}.pt")
+        # Scarica gli embeddings se non esistono già
+        if not os.path.exists(tmp_file):
+            print(f"Scaricamento degli speaker embeddings per lo speaker {speaker_id}...")
+            download_file(url, tmp_file)
+        # Carica gli embeddings
+        speaker_embeddings = torch.load(tmp_file)
+        # Memorizza gli embeddings nella cache
+        speaker_embeddings_cache[speaker_id] = speaker_embeddings
+        print(f"Speaker embeddings caricati per lo speaker {speaker_id}")
+        return speaker_embeddings
+    except Exception as e:
+        print(f"Errore nel caricamento degli speaker embeddings: {e}")
+        # Crea dei default embeddings
+        default_embeddings = torch.zeros(1, 512)
+        speaker_embeddings_cache[speaker_id] = default_embeddings
+        return default_embeddings
 def ensure_model_config():
     """Assicura che il modello abbia una configurazione corretta"""
     try:
         print(f"Errore nella configurazione del modello: {e}")
         return None
 def load_model_and_processor():
     """Carica il modello e il processor con caricamento manuale della configurazione"""
     global model, processor
         # Carica il modello e il processor
         model, processor = load_model_and_processor()
+        # Ottieni gli speaker embeddings
+        speaker_emb = get_speaker_embeddings(speaker_id)
         # Controlla se stiamo usando il modello di Microsoft
         is_microsoft_model = "microsoft" in str(type(model))
             if show_log:
                 print("Utilizzo del modello Microsoft SpeechT5...")
             # Crea input IDs dal testo
             inputs = processor(text=text, return_tensors="pt")
             with torch.no_grad():
                 speech = model.generate_speech(
                     inputs["input_ids"],
+                    speaker_emb
                 )
             # Imposta la frequenza di campionamento
             if show_log:
                 print("Utilizzo del modello Aurora-1.6b-complete...")
             # Prepara gli input
             inputs = processor(
                 text=text,
                 if hasattr(v, "to"):
                     inputs[k] = v.to(model.device)
+            # Sposta gli speaker embeddings sul dispositivo di calcolo
+            speaker_emb = speaker_emb.to(model.device)
+            # Genera il speech
             with torch.no_grad():
                 if hasattr(model, "generate_speech") and callable(model.generate_speech):
                     # Usa generate_speech se disponibile
                         speaker_emb
                     )
                 else:
+                    # Prova a passare gli speaker embeddings come parametro
                     speech = model.generate(
+                        **inputs,
+                        speaker_embeddings=speaker_emb
                     )
             # Imposta la frequenza di campionamento
 # Esempi predefiniti per l'interfaccia
 examples = [
     ["Ciao, mi chiamo Aurora e sono un assistente vocale italiano.", "it", 0, 1.0, False],
+    ["Hello, my name is Aurora and I'm an Italian voice assistant.", "en", 2, 1.0, False],
+    ["Hola, me llamo Aurora y soy un asistente de voz italiano.", "es", 4, 1.0, False],
     ["La vita è bella e il sole splende nel cielo azzurro.", "it", 0, 1.0, False],
+    ["Mi piace viaggiare e scoprire nuove città e culture.", "it", 7, 1.2, False],
+    ["L'intelligenza artificiale sta trasformando il modo in cui interagiamo con i computer e con il mondo che ci circonda.", "it", 9, 0.9, False]
 ]
 # Definizione dell'interfaccia Gradio
                     value="it",
                     info="Seleziona la lingua del testo"
                 )
+                speaker_input = gr.Slider(
                     label="Speaker ID",
                     value=0,
                     minimum=0,
+                    maximum=9,
                     step=1,
+                    info="ID dello speaker (0-9, ogni ID ha caratteristiche vocali diverse)"
                 )
                 speed_input = gr.Slider(
                     minimum=0.5,
     - Il modello funziona meglio con frasi di lunghezza media (fino a 20-30 parole)
     - Per l'italiano, il modello è stato ottimizzato per una pronuncia naturale
+    - Puoi cambiare lo Speaker ID per ottenere voci con caratteristiche diverse
     - La velocità di generazione dipende dalle risorse disponibili sul server
     ## 🔗 Crediti
     - [Lorenzob/aurora-1.6b](https://huggingface.co/Lorenzob/aurora-1.6b) (versione fine-tuned)
     - [Lorenzob/aurora-1.6b-complete](https://huggingface.co/Lorenzob/aurora-1.6b-complete) (versione completa con pesi)
     - [nari-labs/Dia-1.6B](https://huggingface.co/nari-labs/Dia-1.6B) (modello base originale)
+    - [CMU Arctic XVectors](https://huggingface.co/datasets/Matthijs/cmu-arctic-xvectors) (speaker embeddings)
     """)
     # Configurazione degli eventi