Spaces:

Lorenzob
/

aurora-1.6b

Runtime error

App Files Files Community

Lorenzob commited on May 9

Commit

78ff707

verified ·

1 Parent(s): e0a3b9f

Update Gradio app for Aurora-1.6b-complete TTS

Browse files

Files changed (4) hide show

.gitattributes +0 -33
README.md +51 -12
app.py +201 -0
requirements.txt +11 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,2 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text























1	*.pt filter=lfs diff=lfs merge=lfs -text


2	*.safetensors filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,12 +1,51 @@
----
-title: Aurora 1.6b
-emoji: 🌍
-colorFrom: purple
-colorTo: yellow
-sdk: gradio
-sdk_version: 5.29.0
-app_file: app.py
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+# 🎙️ Aurora-1.6b-complete Text-to-Speech Demo
+Questa è una dimostrazione del modello Aurora-1.6b-complete per la sintesi vocale (Text-to-Speech), un modello fine-tuned basato su Dia-1.6B con pesi completi.
+## 📋 Funzionalità
+- **Conversione testo-voce** in italiano, inglese, spagnolo, francese e tedesco
+- **Controllo della velocità** per regolare il ritmo dell'audio generato
+- **Interfaccia intuitiva** con esempi predefiniti
+## 🇮🇹 Ottimizzazione per l'italiano
+Questo modello è stato ottimizzato specificamente per la lingua italiana, offrendo una pronuncia più naturale e fluida rispetto al modello base.
+## 💻 Come utilizzare
+1. Inserisci il testo che desideri convertire in voce
+2. Seleziona la lingua del testo
+3. Regola la velocità della voce se necessario
+4. Clicca su "Genera Audio" per creare l'audio
+## 🔬 Dettagli tecnici
+- Modello base: [nari-labs/Dia-1.6B](https://huggingface.co/nari-labs/Dia-1.6B)
+- Versione fine-tuned: [Lorenzob/aurora-1.6b](https://huggingface.co/Lorenzob/aurora-1.6b)
+- Versione completa: [Lorenzob/aurora-1.6b-complete](https://huggingface.co/Lorenzob/aurora-1.6b-complete)
+- Architettura: SpeechT5
+## 📚 Limitazioni
+- Il modello può avere difficoltà con testi molto lunghi
+- Alcune parole tecniche o rare potrebbero non essere pronunciate correttamente
+- I tempi di generazione dipendono dalle risorse disponibili sul server
+## 📝 Citazione
+Se utilizzi questo modello nei tuoi progetti, ti preghiamo di citare:
+    @misc{aurora-tts-2023,
+      author = {Lorenzo B.},
+      title = {Aurora-1.6b-complete: Italian-optimized Text-to-Speech model with full weights},
+      year = {2023},
+      publisher = {Hugging Face},
+      url = {https://huggingface.co/Lorenzob/aurora-1.6b-complete}
+    }
+## 🙏 Riconoscimenti
+- [nari-labs](https://huggingface.co/nari-labs) per il modello Dia-1.6B
+- [Hugging Face](https://huggingface.co) per l'infrastruttura e gli strumenti

app.py ADDED Viewed

	@@ -0,0 +1,201 @@

+import gradio as gr
+import torch
+import os
+from transformers import AutoProcessor, AutoModelForSpeechGeneration, set_seed
+import numpy as np
+from scipy import signal
+import warnings
+warnings.filterwarnings("ignore")
+# Imposta un seed per la riproducibilità
+set_seed(42)
+# Definizioni di variabili globali
+MODEL_REPO = "Lorenzob/aurora-1.6b-complete"  # Repository aggiornata con il modello completo
+SAMPLE_RATE = 24000  # Frequenza di campionamento per il modello TTS
+# Cache per il modello e il processor (per evitare di ricaricarli ad ogni richiesta)
+model = None
+processor = None
+def load_model_and_processor():
+    """Carica il modello e il processor solo se non sono già stati caricati"""
+    global model, processor
+    if model is None or processor is None:
+        try:
+            print("📂 Caricamento del modello Aurora-1.6b-complete...")
+            processor = AutoProcessor.from_pretrained(MODEL_REPO)
+            model = AutoModelForSpeechGeneration.from_pretrained(
+                MODEL_REPO,
+                torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+                device_map="auto"
+            )
+            print("✅ Modello caricato con successo!")
+        except Exception as e:
+            print(f"❌ Errore nel caricamento del modello: {e}")
+            # Fallback al modello originale di Dia se il caricamento fallisce
+            print("⚠️ Tentativo di fallback al modello Dia-1.6B...")
+            processor = AutoProcessor.from_pretrained("nari-labs/Dia-1.6B")
+            model = AutoModelForSpeechGeneration.from_pretrained(
+                "nari-labs/Dia-1.6B",
+                torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+                device_map="auto"
+            )
+            print("✅ Modello di fallback caricato con successo!")
+    return model, processor
+def text_to_speech(text, language="it", speaker_id=0, speed=1.0, show_log=False):
+    """Converte testo in voce utilizzando il modello TTS"""
+    if not text.strip():
+        return None, "Per favore, inserisci del testo da convertire in voce."
+    # Log di debug
+    if show_log:
+        print(f"Richiesta TTS ricevuta: '{text}' (Lingua: {language}, Speaker: {speaker_id}, Velocità: {speed})")
+    try:
+        # Carica il modello e il processor (se non già caricati)
+        model, processor = load_model_and_processor()
+        # Prepara gli input per il modello
+        inputs = processor(
+            text=text,
+            language=language,
+            return_tensors="pt"
+        )
+        # Sposta gli input sul dispositivo di calcolo
+        for k, v in inputs.items():
+            if hasattr(v, "to"):
+                inputs[k] = v.to(model.device)
+        # Parametri per la generazione
+        gen_params = {
+            "do_sample": True,
+            "temperature": 0.7,
+            "top_k": 50,
+            "top_p": 0.95,
+        }
+        # Genera il speech
+        with torch.no_grad():
+            speech = model.generate(**inputs, **gen_params)
+        # Converti il tensore in un array numpy
+        speech_array = speech.cpu().numpy().squeeze()
+        # Applica il controllo della velocità
+        if speed != 1.0:
+            # Usa scipy.signal per ricampionare l'audio e cambiare la velocità
+            speech_array = signal.resample(speech_array, int(len(speech_array) / speed))
+        if show_log:
+            print(f"✅ Audio generato con successo! Lunghezza: {len(speech_array)} campioni")
+        return (SAMPLE_RATE, speech_array), None
+    except Exception as e:
+        error_msg = f"Errore nella generazione dell'audio: {str(e)}"
+        print(f"❌ {error_msg}")
+        return None, error_msg
+# Esempi predefiniti per l'interfaccia
+examples = [
+    ["Ciao, mi chiamo Aurora e sono un assistente vocale italiano.", "it", 0, 1.0, False],
+    ["Hello, my name is Aurora and I'm an Italian voice assistant.", "en", 0, 1.0, False],
+    ["Hola, me llamo Aurora y soy un asistente de voz italiano.", "es", 0, 1.0, False],
+    ["La vita è bella e il sole splende nel cielo azzurro.", "it", 0, 1.0, False],
+    ["Mi piace viaggiare e scoprire nuove città e culture.", "it", 0, 1.2, False],
+    ["L'intelligenza artificiale sta trasformando il modo in cui interagiamo con i computer e con il mondo che ci circonda.", "it", 0, 0.9, False]
+]
+# Definizione dell'interfaccia Gradio
+with gr.Blocks(title="Aurora-1.6b TTS Demo", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("""
+    # 🎙️ Aurora-1.6b Text-to-Speech Demo
+    Questa demo utilizza il modello **Aurora-1.6b-complete** per la sintesi vocale (TTS), un modello fine-tuned basato su Dia-1.6B con pesi completi.
+    Il modello supporta italiano, inglese, spagnolo, francese e tedesco, ma è stato ottimizzato per l'italiano.
+    """)
+    with gr.Row():
+        with gr.Column(scale=2):
+            text_input = gr.Textbox(
+                label="Testo da convertire in voce",
+                placeholder="Inserisci qui il testo da convertire...",
+                lines=5,
+                value="Ciao, sono Aurora, un assistente vocale italiano basato su intelligenza artificiale."
+            )
+            with gr.Row():
+                language_input = gr.Dropdown(
+                    choices=["it", "en", "es", "fr", "de"],
+                    label="Lingua",
+                    value="it",
+                    info="Seleziona la lingua del testo"
+                )
+                speaker_input = gr.Number(
+                    label="Speaker ID",
+                    value=0,
+                    minimum=0,
+                    maximum=10,
+                    step=1,
+                    info="ID dello speaker (solo per modelli multi-speaker)"
+                )
+                speed_input = gr.Slider(
+                    minimum=0.5,
+                    maximum=1.5,
+                    value=1.0,
+                    step=0.1,
+                    label="Velocità",
+                    info="Valori più bassi = voce più lenta, valori più alti = voce più veloce"
+                )
+            debug_input = gr.Checkbox(label="Mostra log di debug", value=False)
+            submit_btn = gr.Button("Genera Audio", variant="primary")
+        with gr.Column(scale=1):
+            audio_output = gr.Audio(label="Audio generato", show_share_button=True)
+            error_output = gr.Textbox(label="Messaggi di errore", visible=True)
+    # Esempi
+    gr.Examples(
+        examples=examples,
+        inputs=[text_input, language_input, speaker_input, speed_input, debug_input],
+        outputs=[audio_output, error_output],
+        fn=text_to_speech,
+        cache_examples=True,
+    )
+    # Info aggiuntive
+    gr.Markdown("""
+    ## 📝 Note sull'utilizzo
+    - Il modello funziona meglio con frasi di lunghezza media (fino a 20-30 parole)
+    - Per l'italiano, il modello è stato ottimizzato per una pronuncia naturale
+    - La velocità di generazione dipende dalle risorse disponibili sul server
+    ## 🔗 Crediti
+    Questo modello è una combinazione di:
+    - [Lorenzob/aurora-1.6b](https://huggingface.co/Lorenzob/aurora-1.6b) (versione fine-tuned)
+    - [Lorenzob/aurora-1.6b-complete](https://huggingface.co/Lorenzob/aurora-1.6b-complete) (versione completa con pesi)
+    - [nari-labs/Dia-1.6B](https://huggingface.co/nari-labs/Dia-1.6B) (modello base originale)
+    """)
+    # Configurazione degli eventi
+    submit_btn.click(
+        fn=text_to_speech,
+        inputs=[text_input, language_input, speaker_input, speed_input, debug_input],
+        outputs=[audio_output, error_output],
+    )
+# Precarica il modello quando l'app viene avviata
+load_model_and_processor()
+# Avvia l'interfaccia
+demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,11 @@

+transformers>=4.30.0
+torch>=1.13.0
+torchaudio>=0.13.0
+gradio>=3.50.0
+numpy>=1.19.0
+scipy>=1.10.0
+soundfile>=0.12.1
+accelerate>=0.20.0
+sentencepiece>=0.1.99
+safetensors>=0.3.1