Pedro_Lab_XTTS_demo

Runtime error

App Files Files

Blakus commited on Oct 21

Commit

4a7acd8

verified ·

1 Parent(s): 2f915ae

Update app.py

Browse files

Files changed (1) hide show

app.py +117 -77

app.py CHANGED Viewed

@@ -4,12 +4,13 @@ import sys
 import logging
 from pathlib import Path
 import os
-import threading  # Adición para carga paralela del modelo
 # Configuración inicial ANTES de importaciones pesadas
 os.environ["COQUI_TOS_AGREED"] = "1"
-os.environ["OMP_NUM_THREADS"] = "1"  # Corrección: Suprime advertencia libgomp
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
 # Configurar logging
 logging.basicConfig(
@@ -34,8 +35,8 @@ try:
     import scipy.io.wavfile as wavfile
     import warnings
     import shutil
-    import pydantic  # Para logging de versión
-    logger.info(f"Gradio: {gr.__version__}, Pydantic: {pydantic.__version__}")  # Adición: Logging de versiones para diagnóstico
     logger.info("✅ Todas las dependencias importadas correctamente")
 except ImportError as e:
     logger.error(f"❌ Error importando dependencias: {e}")
@@ -85,14 +86,12 @@ class PedroTTSApp:
         try:
             logger.info("📦 Iniciando configuración del modelo XTTS...")
-            # El modelo está pre-cargado en el Space
             repo_id = "Blakus/Pedro_Lab_XTTS"
             local_dir = Path(get_user_data_dir("tts")) / "tts_models--multilingual--multi-dataset--xtts_v2"
             local_dir.mkdir(parents=True, exist_ok=True)
             files_to_download = ["config.json", "model.pth", "vocab.json"]
-            # Descargar archivos del modelo
             for file_name in files_to_download:
                 file_path = local_dir / file_name
                 if not file_path.exists():
@@ -107,7 +106,6 @@ class PedroTTSApp:
                         logger.info(f"✅ {file_name} descargado")
                     except Exception as e:
                         logger.warning(f"⚠️ Error en descarga directa de {file_name}: {e}")
-                        # Intentar método alternativo
                         downloaded_file = hf_hub_download(
                             repo_id=repo_id,
                             filename=file_name
@@ -117,7 +115,6 @@ class PedroTTSApp:
                 else:
                     logger.info(f"✅ {file_name} ya existe")
-            # Verificar archivos
             config_path = str(local_dir / "config.json")
             checkpoint_path = str(local_dir / "model.pth")
             vocab_path = str(local_dir / "vocab.json")
@@ -126,26 +123,22 @@ class PedroTTSApp:
                 if not os.path.exists(path):
                     raise FileNotFoundError(f"Archivo no encontrado: {name} en {path}")
-            # Cargar configuración
             logger.info("⚙️ Cargando configuración...")
             self.config = XttsConfig()
             self.config.load_json(config_path)
-            # Inicializar modelo
             logger.info("🔧 Inicializando modelo...")
             self.model = Xtts.init_from_config(self.config)
-            # Cargar checkpoint
             logger.info("📂 Cargando checkpoint (esto puede tomar unos minutos)...")
             self.model.load_checkpoint(
                 self.config,
                 checkpoint_path=checkpoint_path,
                 vocab_path=vocab_path,
                 eval=True,
-                use_deepspeed=False
             )
-            # Mover a dispositivo apropiado
             if self.device == "cuda":
                 self.model.cuda()
                 logger.info("🚀 Modelo cargado en GPU")
@@ -208,11 +201,9 @@ class PedroTTSApp:
     def generate_speech(self, text, language, reference_audio, speed, temperature, enable_text_splitting):
         """Genera audio de voz"""
         try:
-            # Adición: Verificación de modelo cargado
             if not self.model_loaded or not self.model:
                 return None, "⏳ Modelo cargando... Intente en unos minutos o contacte al administrador."
-            # Validaciones
             if not text or len(text.strip()) < 2:
                 return None, "❌ El texto debe tener al menos 2 caracteres"
@@ -225,7 +216,6 @@ class PedroTTSApp:
             text = text.strip()
             logger.info(f"🎙️ Generando: '{text[:50]}{'...' if len(text) > 50 else ''}'")
-            # Obtener latentes del audio de referencia
             try:
                 gpt_cond_latent, speaker_embedding = self.model.get_conditioning_latents(
                     audio_path=reference_audio
@@ -236,7 +226,6 @@ class PedroTTSApp:
             start_time = time.time()
-            # Generar audio
             out = self.model.inference(
                 text,
                 language,
@@ -244,8 +233,8 @@ class PedroTTSApp:
                 speaker_embedding,
                 temperature=float(temperature),
                 length_penalty=1.0,
-                repetition_penalty=5.0,
-                top_k=50,
                 top_p=0.85,
                 speed=float(speed),
                 enable_text_splitting=enable_text_splitting,
@@ -254,11 +243,9 @@ class PedroTTSApp:
             inference_time = time.time() - start_time
-            # Verificar output
             if "wav" not in out or out["wav"] is None:
                 return None, "❌ No se generó audio"
-            # Guardar audio
             timestamp = int(time.time())
             output_path = f"output_{timestamp}.wav"
             sample_rate = self.config.audio.get("output_sample_rate", 22050)
@@ -293,10 +280,7 @@ def create_interface():
     try:
         logger.info("🎨 Creando interfaz...")
-        # Cargar audios de referencia
         available_audios = app.load_reference_audios()
-        # Configurar opciones
         languages = [("Español", "es"), ("English", "en")]
         ref_mapping = {
@@ -316,11 +300,7 @@ def create_interface():
                 label = ref_mapping.get(filename, filename)
                 audio_refs.append((label, audio_file))
-        # CSS personalizado
         custom_css = """
-        .gradio-container {
-            font-family: 'Inter', sans-serif;
-        }
         .auth-box {
             max-width: 450px;
             margin: 40px auto;
@@ -329,13 +309,58 @@ def create_interface():
             background: linear-gradient(145deg, #2d2d2d, #1a1a1a);
             box-shadow: 0 8px 32px rgba(0,0,0,0.4);
         }
-        .header-box {
-            text-align: center;
-            padding: 30px;
             background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
             border-radius: 15px;
             color: white;
-            margin-bottom: 25px;
         }
         """
@@ -369,13 +394,25 @@ def create_interface():
             # Interfaz principal
             with gr.Column(visible=False) as main_column:
-                # Header
-                gr.HTML("""
-                <div class="header-box">
-                    <h1 style="margin: 0 0 10px 0;">🎙️ Pedro Labattaglia</h1>
-                    <p style="margin: 0; font-size: 18px;">Síntesis de Voz Profesional</p>
-                </div>
-                """)
                 with gr.Row():
                     gr.Markdown("### ✅ Sesión activa")
@@ -385,39 +422,40 @@ def create_interface():
                 with gr.Row():
                     with gr.Column(scale=2):
-                        text_input = gr.Textbox(
-                            label="📝 Texto a sintetizar",
-                            placeholder="Escriba aquí el texto que desea convertir a voz...",
-                            lines=5
                         )
-                        with gr.Row():
-                            language = gr.Dropdown(
-                                choices=languages,
-                                value="es",
-                                label="🌐 Idioma"
-                            )
-                            reference = gr.Dropdown(
-                                choices=audio_refs,
-                                value=audio_refs[0][1] if audio_refs else "",
-                                label="🎭 Estilo de voz"
-                            )
-                        with gr.Row():
-                            speed = gr.Slider(
-                                0.5, 2.0, 1.0, 0.1,
-                                label="⚡ Velocidad"
-                            )
-                            temperature = gr.Slider(
-                                0.1, 1.5, 0.75, 0.05,
-                                label="🎨 Creatividad"
-                            )
                         enable_text_splitting = gr.Checkbox(
                             value=True,
-                            label="📖 Segmentación inteligente (recomendado para textos largos)"
                         )
                         generate_btn = gr.Button("🎵 Generar Audio", variant="primary", size="lg")
@@ -434,7 +472,18 @@ def create_interface():
                             lines=10
                         )
-                # Event handlers
                 generate_btn.click(
                     fn=app.generate_speech,
                     inputs=[text_input, language, reference, speed, temperature, enable_text_splitting],
@@ -499,39 +548,30 @@ def create_interface():
 def main():
     try:
         logger.info("🚀 Iniciando aplicación...")
-        # CRÍTICO: Desactivar SSR para evitar errores con Node
-        os.environ["GRADIO_SSR_MODE"] = "false"
-        # Verificar entorno
         is_spaces = os.environ.get("SPACE_ID") is not None
         logger.info(f"🌍 Entorno: {'HuggingFace Spaces' if is_spaces else 'Local'}")
-        # Verificar credenciales
         has_auth = os.environ.get("AUTH_USERNAME") and os.environ.get("AUTH_PASSWORD")
         if not has_auth:
             logger.warning("⚠️ Credenciales no configuradas en secrets")
         else:
             logger.info("✅ Credenciales configuradas")
-        # Crear interfaz
         logger.info("🎨 Creando interfaz Gradio...")
         demo = create_interface()
         logger.info("✅ Interfaz creada")
-        # Adición: Carga paralela del modelo (no bloquea UI)
         logger.info("📦 Cargando modelo XTTS en hilo de fondo...")
         model_thread = threading.Thread(target=app.setup_model, daemon=True)
         model_thread.start()
-        # Lanzar
         port = int(os.environ.get("PORT", 7860))
         logger.info(f"🌐 Preparando lanzamiento en puerto {port}")
-        # Corrección: Lanzamiento condicional para Spaces vs. Local
         if is_spaces:
             logger.info("🏠 Modo Spaces (auto-config)")
-            demo.launch(share=False, quiet=True)  # Spaces maneja binding automáticamente
         else:
             logger.info("🔗 Habilitando modo share (local)")
             logger.info("=" * 60)

 import logging
 from pathlib import Path
 import os
+import threading
 # Configuración inicial ANTES de importaciones pesadas
 os.environ["COQUI_TOS_AGREED"] = "1"
+os.environ["OMP_NUM_THREADS"] = "1"
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
+os.environ["GRADIO_SSR_MODE"] = "false"  # FIX: Desactivar SSR para evitar errores con Node
 # Configurar logging
 logging.basicConfig(
     import scipy.io.wavfile as wavfile
     import warnings
     import shutil
+    import pydantic
+    logger.info(f"Gradio: {gr.__version__}, Pydantic: {pydantic.__version__}")
     logger.info("✅ Todas las dependencias importadas correctamente")
 except ImportError as e:
     logger.error(f"❌ Error importando dependencias: {e}")
         try:
             logger.info("📦 Iniciando configuración del modelo XTTS...")
             repo_id = "Blakus/Pedro_Lab_XTTS"
             local_dir = Path(get_user_data_dir("tts")) / "tts_models--multilingual--multi-dataset--xtts_v2"
             local_dir.mkdir(parents=True, exist_ok=True)
             files_to_download = ["config.json", "model.pth", "vocab.json"]
             for file_name in files_to_download:
                 file_path = local_dir / file_name
                 if not file_path.exists():
                         logger.info(f"✅ {file_name} descargado")
                     except Exception as e:
                         logger.warning(f"⚠️ Error en descarga directa de {file_name}: {e}")
                         downloaded_file = hf_hub_download(
                             repo_id=repo_id,
                             filename=file_name
                 else:
                     logger.info(f"✅ {file_name} ya existe")
             config_path = str(local_dir / "config.json")
             checkpoint_path = str(local_dir / "model.pth")
             vocab_path = str(local_dir / "vocab.json")
                 if not os.path.exists(path):
                     raise FileNotFoundError(f"Archivo no encontrado: {name} en {path}")
             logger.info("⚙️ Cargando configuración...")
             self.config = XttsConfig()
             self.config.load_json(config_path)
             logger.info("🔧 Inicializando modelo...")
             self.model = Xtts.init_from_config(self.config)
             logger.info("📂 Cargando checkpoint (esto puede tomar unos minutos)...")
             self.model.load_checkpoint(
                 self.config,
                 checkpoint_path=checkpoint_path,
                 vocab_path=vocab_path,
                 eval=True,
+                use_deepspeed=True
             )
             if self.device == "cuda":
                 self.model.cuda()
                 logger.info("🚀 Modelo cargado en GPU")
     def generate_speech(self, text, language, reference_audio, speed, temperature, enable_text_splitting):
         """Genera audio de voz"""
         try:
             if not self.model_loaded or not self.model:
                 return None, "⏳ Modelo cargando... Intente en unos minutos o contacte al administrador."
             if not text or len(text.strip()) < 2:
                 return None, "❌ El texto debe tener al menos 2 caracteres"
             text = text.strip()
             logger.info(f"🎙️ Generando: '{text[:50]}{'...' if len(text) > 50 else ''}'")
             try:
                 gpt_cond_latent, speaker_embedding = self.model.get_conditioning_latents(
                     audio_path=reference_audio
             start_time = time.time()
             out = self.model.inference(
                 text,
                 language,
                 speaker_embedding,
                 temperature=float(temperature),
                 length_penalty=1.0,
+                repetition_penalty=max(1.01, 5.0),
+                top_k=int(50),
                 top_p=0.85,
                 speed=float(speed),
                 enable_text_splitting=enable_text_splitting,
             inference_time = time.time() - start_time
             if "wav" not in out or out["wav"] is None:
                 return None, "❌ No se generó audio"
             timestamp = int(time.time())
             output_path = f"output_{timestamp}.wav"
             sample_rate = self.config.audio.get("output_sample_rate", 22050)
     try:
         logger.info("🎨 Creando interfaz...")
         available_audios = app.load_reference_audios()
         languages = [("Español", "es"), ("English", "en")]
         ref_mapping = {
                 label = ref_mapping.get(filename, filename)
                 audio_refs.append((label, audio_file))
         custom_css = """
         .auth-box {
             max-width: 450px;
             margin: 40px auto;
             background: linear-gradient(145deg, #2d2d2d, #1a1a1a);
             box-shadow: 0 8px 32px rgba(0,0,0,0.4);
         }
+        .speaker-info {
             background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
+            color: white;
+            padding: 20px;
             border-radius: 15px;
+            margin-bottom: 20px;
+            text-align: center;
+        }
+        .speaker-image {
+            width: 180px;
+            height: 180px;
+            border-radius: 50%;
+            margin: 0 auto 15px;
+            border: 4px solid rgba(255,255,255,0.3);
+            object-fit: cover;
+        }
+        .social-links {
+            display: flex;
+            justify-content: center;
+            gap: 15px;
+            margin-top: 15px;
+        }
+        .social-link {
             color: white;
+            text-decoration: none;
+            font-size: 16px;
+            padding: 8px 12px;
+            border-radius: 20px;
+            background: rgba(255,255,255,0.2);
+            transition: all 0.3s ease;
+        }
+        .social-link:hover {
+            background: rgba(255,255,255,0.3);
+            transform: translateY(-2px);
+        }
+        .credits-section {
+            margin-top: 15px;
+            text-align: center;
+        }
+        .credits-text {
+            color: #6c757d;
+            font-size: 12px;
+            margin: 5px 0;
+        }
+        .credits-link {
+            color: #007bff;
+            text-decoration: none;
+            font-size: 11px;
+            transition: color 0.3s ease;
+        }
+        .credits-link:hover {
+            color: #0056b3;
         }
         """
             # Interfaz principal
             with gr.Column(visible=False) as main_column:
+                # Header con info del locutor
+                with gr.Column(elem_classes="speaker-info"):
+                    gr.HTML("""
+                    <div style="text-align: center;">
+                        <img src="https://labattaglia.com.ar/images/about_me_pic2.jpg"
+                             class="speaker-image" alt="Pedro Labattaglia">
+                        <h2 style="margin: 10px 0 5px 0;">Pedro Labattaglia</h2>
+                        <p style="margin: 0; font-style: italic; opacity: 0.9;">
+                            🎙️ Locutor profesional | +20 años dando voz a marcas líderes en Argentina, LATAM y EE.UU. |
+                            Español rioplatense / neutro | Voice Over | Source Connect: pedrovotalent |
+                            ✉️ [email protected]
+                        </p>
+                        <div class="social-links">
+                            <a href="https://www.instagram.com/locutor.fit/" class="social-link" target="_blank">📸 Instagram</a>
+                            <a href="https://www.linkedin.com/in/pedro-labattaglia/" class="social-link" target="_blank">💼 LinkedIn</a>
+                            <a href="https://labattaglia.com.ar/" class="social-link" target="_blank">🌐 Web</a>
+                        </div>
+                    </div>
+                    """)
                 with gr.Row():
                     gr.Markdown("### ✅ Sesión activa")
                 with gr.Row():
                     with gr.Column(scale=2):
+                        language = gr.Dropdown(
+                            choices=languages,
+                            value="es",
+                            label="🌐 Idioma"
                         )
+                        reference = gr.Dropdown(
+                            choices=audio_refs,
+                            value=audio_refs[0][1] if audio_refs else "",
+                            label="🎭 Estilo de voz"
+                        )
+                        gr.Markdown("**Velocidad de reproducción del audio**")
+                        speed = gr.Slider(
+                            0.5, 2.0, 1.0, 0.1,
+                            label="⚡ Velocidad"
+                        )
+                        gr.Markdown("**🛡️ Más estable pero menos creativo/expresivo ← → 🎭 Menos estable pero más creativo/expresivo**")
+                        temperature = gr.Slider(
+                            0.1, 1.5, 0.75, 0.05,
+                            label="🎨 Creatividad"
+                        )
+                        gr.Markdown("**✅ Puede generar mejor coherencia con textos largos | ⚠️ A costa de estabilidad o pequeños errores**")
                         enable_text_splitting = gr.Checkbox(
                             value=True,
+                            label="📖 Segmentación inteligente"
+                        )
+                        text_input = gr.Textbox(
+                            label="📝 Texto a sintetizar",
+                            placeholder="Escriba aquí el texto que desea convertir a voz...",
+                            lines=5
                         )
                         generate_btn = gr.Button("🎵 Generar Audio", variant="primary", size="lg")
                             lines=10
                         )
+                # Créditos
+                with gr.Column(elem_classes="credits-section"):
+                    gr.HTML("""
+                    <div style="text-align: center;">
+                        <p class="credits-text">Desarrollado por <strong>Ezequiel Casas</strong></p>
+                        <a href="https://www.linkedin.com/in/ezequiel-c-592641142/"
+                           class="credits-link"
+                           target="_blank">LinkedIn</a>
+                    </div>
+                    """)
+                # Event handler para generación
                 generate_btn.click(
                     fn=app.generate_speech,
                     inputs=[text_input, language, reference, speed, temperature, enable_text_splitting],
 def main():
     try:
         logger.info("🚀 Iniciando aplicación...")
         is_spaces = os.environ.get("SPACE_ID") is not None
         logger.info(f"🌍 Entorno: {'HuggingFace Spaces' if is_spaces else 'Local'}")
         has_auth = os.environ.get("AUTH_USERNAME") and os.environ.get("AUTH_PASSWORD")
         if not has_auth:
             logger.warning("⚠️ Credenciales no configuradas en secrets")
         else:
             logger.info("✅ Credenciales configuradas")
         logger.info("🎨 Creando interfaz Gradio...")
         demo = create_interface()
         logger.info("✅ Interfaz creada")
         logger.info("📦 Cargando modelo XTTS en hilo de fondo...")
         model_thread = threading.Thread(target=app.setup_model, daemon=True)
         model_thread.start()
         port = int(os.environ.get("PORT", 7860))
         logger.info(f"🌐 Preparando lanzamiento en puerto {port}")
         if is_spaces:
             logger.info("🏠 Modo Spaces (auto-config)")
+            demo.launch(share=False, quiet=True, ssr_mode=False)
         else:
             logger.info("🔗 Habilitando modo share (local)")
             logger.info("=" * 60)