Spaces:

gnosticdev
/

INVIDEO_BASIC

Running

App Files Files Community

gnosticdev commited on Jul 13

Commit

9038d35

verified ·

1 Parent(s): ef98f47

Update app.py

Browse files

Files changed (1) hide show

app.py +54 -60

app.py CHANGED Viewed

@@ -9,7 +9,8 @@ import gradio as gr
 import torch
 from transformers import GPT2Tokenizer, GPT2LMHeadModel
 from keybert import KeyBERT
-from moviepy.editor import VideoFileClip, concatenate_videoclip, concatenate_videoclips, AudioFileClip, CompositeAudioClip, concatenate_audioclips, AudioClip
 import re
 import math
 import shutil
@@ -101,7 +102,7 @@ def generate_script(prompt, max_length=150):
     logger.info(f"Generando guión | Prompt: '{prompt[:50]}...' | Longitud máxima: {max_length}")
     if not tokenizer or not model:
         logger.warning("Modelos GPT-2 no disponibles - Usando prompt original como guion.")
-        return prompt.strip()
     # Frase de instrucción que se le da a la IA
     instruction_phrase_start = "Escribe un guion corto, interesante y coherente sobre:"
@@ -342,7 +343,8 @@ def extract_visual_keywords_from_script(script_text):
     logger.debug("Extrayendo palabras clave con método simple...")
     words = clean_text.lower().split()
-    stop_words = {"el", "la", "los", "las", "de", "en", "y", "a", "que", "es", "un", "una", "con", "para", "del", "al", "por", "su", "sus", "se", "lo", "le", "me", "te", "nos", "os", "les", "mi", "tu", "nuestro", "vuestro", "este", "ese", "aquel", "esta", "esa", "aquella", "esto", "eso", "aquello", "mis", "tus",
                   "nuestros", "vuestros", "estas", "esas", "aquellas", "si", "no", "más", "menos", "sin", "sobre", "bajo", "entre", "hasta", "desde", "durante", "mediante", "según", "versus", "via", "cada", "todo", "todos", "toda", "todas", "poco", "pocos", "poca", "pocas", "mucho", "muchos", "mucha", "muchas", "varios", "varias", "otro", "otros", "otra", "otras", "mismo", "misma", "mismos", "mismas", "tan", "tanto", "tanta", "tantos", "tantas", "tal", "tales", "cual", "cuales", "cuyo", "cuya", "cuyos", "cuyas", "quien", "quienes", "cuan", "cuanto", "cuanta", "cuantos", "cuantas", "como", "donde", "cuando", "porque", "aunque", "mientras", "siempre", "nunca", "jamás", "muy", "casi", "solo", "solamente", "incluso", "apenas", "quizás", "tal vez", "acaso", "claro", "cierto", "obvio", "evidentemente", "realmente", "simplemente", "generalmente", "especialmente", "principalmente", "posiblemente", "probablemente", "difícilmente", "fácilmente", "rápidamente", "lentamente", "bien", "mal", "mejor", "peor", "arriba", "abajo", "adelante", "atrás", "cerca", "lejos", "dentro", "fuera", "encima", "debajo", "frente", "detrás", "antes", "después", "luego", "pronto", "tarde", "todavía", "ya", "aun", "aún", "quizá"}
     valid_words = [word for word in words if len(word) > 3 and word not in stop_words]
@@ -371,8 +373,8 @@ def crear_video(prompt_type, input_text, musica_file=None):
     audio_tts_original = None
     musica_audio_original = None
-    audio_tts = None # Variable to hold potentially modified TTS clip (currently not used, but kept for structure)
-    musica_audio = None # Variable to hold potentially modified music clip (looped/trimmed)
     video_base = None
     video_final = None
     source_clips = []
@@ -398,7 +400,7 @@ def crear_video(prompt_type, input_text, musica_file=None):
         # 2. Generar audio de voz
         logger.info("Generando audio de voz...")
         voz_path = os.path.join(temp_dir_intermediate, "voz.mp3")
-        # CAMBIO: Usar voz de Juan por defecto en la llamada
         if not asyncio.run(text_to_speech(guion, voz_path, voice="es-ES-JuanNeural")):
             logger.error("Fallo en generación de voz")
             raise ValueError("Error generando voz a partir del guion.")
@@ -407,14 +409,14 @@ def crear_video(prompt_type, input_text, musica_file=None):
         audio_tts_original = AudioFileClip(voz_path)
         if audio_tts_original.reader is None or audio_tts_original.duration is None or audio_tts_original.duration <= 0:
-            logger.critical("Initial TTS audio clip is invalid (reader is None or duration <= 0).")
             try: audio_tts_original.close()
             except: pass
             audio_tts_original = None
-            raise ValueError("Generated voice audio is invalid.")
-        audio_tts = audio_tts_original
-        audio_duration = audio_tts_original.duration
         logger.info(f"Duración audio voz: {audio_duration:.2f} segundos")
         if audio_duration < 1.0:
@@ -517,7 +519,7 @@ def crear_video(prompt_type, input_text, musica_file=None):
                 source_clips.append(clip)
                 if clip.reader is None or clip.duration is None or clip.duration <= 0:
-                    logger.warning(f"[{i+1}/{len(video_paths)}] Clip fuente {path} parece inválido (reader is None o duration <= 0). Saltando.")
                     continue
                 remaining_needed = audio_duration - current_duration
@@ -588,8 +590,7 @@ def crear_video(prompt_type, input_text, musica_file=None):
             num_full_repeats = int(audio_duration // final_video_base.duration)
             remaining_duration = audio_duration % final_video_base.duration
-            repeated_clips_list = [final_video_base] * num_full_repeats
             if remaining_duration > 0:
                 try:
                     remaining_clip = final_video_base.subclip(0, remaining_duration)
@@ -627,7 +628,7 @@ def crear_video(prompt_type, input_text, musica_file=None):
                  finally:
                      if 'repeated_clips_list' in locals():
                          for clip in repeated_clips_list:
-                              if clip is not final_video_base:
                                    try: clip.close()
                                    except: pass
@@ -685,7 +686,7 @@ def crear_video(prompt_type, input_text, musica_file=None):
                      except: pass
                      musica_audio_original = None
                 else:
-                     # CAMBIO: Asegurar que loop_audio_to_length recibe la duración correcta del video base
                      musica_audio_looped = loop_audio_to_length(musica_audio_original, video_base.duration)
                      logger.debug(f"Música ajustada a duración del video: {musica_audio_looped.duration:.2f}s")
@@ -697,11 +698,10 @@ def crear_video(prompt_type, input_text, musica_file=None):
                 if musica_audio_looped:
-                    # CAMBIO: Usar volumex(0.2) para la música (ya estaba en 0.2, confirmamos)
-                    # CAMBIO: Usar volumex(1.0) para la voz (ya estaba en 1.0, confirmamos)
                     composite_audio = CompositeAudioClip([
-                        musica_audio_looped.volumex(0.2),
-                        audio_tts_original.volumex(1.0)
                     ])
                     if composite_audio.duration is None or composite_audio.duration <= 0:
@@ -712,7 +712,7 @@ def crear_video(prompt_type, input_text, musica_file=None):
                     else:
                          logger.info("Mezcla de audio completada (voz + música).")
                          final_audio = composite_audio
-                         musica_audio = musica_audio_looped
             except Exception as e:
                 logger.warning(f"Error procesando música de fondo: {str(e)}", exc_info=True)
@@ -726,7 +726,7 @@ def crear_video(prompt_type, input_text, musica_file=None):
             try:
                  if final_audio.duration > video_base.duration:
                       trimmed_final_audio = final_audio.subclip(0, video_base.duration)
-                      if trimmed_final_audio.duration is None or trimmed_final_audio.duration <= 0:
                            logger.warning("Audio final recortado es inválido. Usando audio final original.")
                            try: trimmed_final_audio.close()
                            except: pass
@@ -789,50 +789,44 @@ def crear_video(prompt_type, input_text, musica_file=None):
              except Exception as e:
                  logger.warning(f"Error cerrando segmento de video en finally: {str(e)}")
-        # Cerrar los objetos principales de MoviePy si se crearon correctamente
-        try:
-            # Cerrar clips de audio en orden: música loopeada, música original (si es diferente), TTS original
-            if musica_audio is not None: # musica_audio holds the potentially looped clip
-                try:
-                    musica_audio.close()
-                except Exception as e:
-                    logger.warning(f"Error cerrando musica_audio (procesada) en finally: {str(e)}")
-            if musica_audio_original is not None and musica_audio_original is not musica_audio:
-                 try:
-                     musica_audio_original.close()
-                 except Exception as e:
-                     logger.warning(f"Error cerrando musica_audio_original en finally: {str(e)}")
-            # audio_tts currently only holds audio_tts_original, but keep structure
-            if audio_tts is not None and audio_tts is not audio_tts_original:
-                 try:
-                     audio_tts.close()
-                 except Exception as e:
-                     logger.warning(f"Error cerrando audio_tts (procesada) en finally: {str(e)}")
-            if audio_tts_original is not None:
-                 try:
-                     audio_tts_original.close()
-                 except Exception as e:
-                     logger.warning(f"Error cerrando audio_tts_original en finally: {str(e)}")
-            # Cerrar clips de video en orden: video_final (debería cerrar sus componentes), luego video_base (si es diferente de video_final)
-            if video_final is not None:
-                try:
-                    video_final.close()
-                except Exception as e:
-                    logger.warning(f"Error cerrando video_final en finally: {str(e)}")
-            elif video_base is not None and video_base is not video_final: # Asegurarse de que video_base no es el mismo objeto que video_final
-                 try:
-                     video_base.close()
-                 except Exception as e:
-                     logger.warning(f"Error cerrando video_base en finally: {str(e)}")
-        except Exception as e:
-            logger.warning(f"Error durante el cierre de clips finales en finally: {str(e)}")
         # Limpiar archivos intermedios, pero NO el archivo de video final
         if temp_dir_intermediate and os.path.exists(temp_dir_intermediate):

 import torch
 from transformers import GPT2Tokenizer, GPT2LMHeadModel
 from keybert import KeyBERT
+# CORRECCIÓN CRÍTICA: Eliminar 'concatenate_videoclip' (singular) de la importación
+from moviepy.editor import VideoFileClip, concatenate_videoclips, AudioFileClip, CompositeAudioClip, concatenate_audioclips, AudioClip
 import re
 import math
 import shutil
     logger.info(f"Generando guión | Prompt: '{prompt[:50]}...' | Longitud máxima: {max_length}")
     if not tokenizer or not model:
         logger.warning("Modelos GPT-2 no disponibles - Usando prompt original como guion.")
+        return prompt.strip() # Return original prompt clean
     # Frase de instrucción que se le da a la IA
     instruction_phrase_start = "Escribe un guion corto, interesante y coherente sobre:"
     logger.debug("Extrayendo palabras clave con método simple...")
     words = clean_text.lower().split()
+    stop_words = {"el", "la", "los", "las", "de", "en", "y", "a", "que", "es", "un", "una", "con", "para", "del", "al", "por", "su", "sus", "se", "lo", "le", "me", "te", "nos", "os", "les", "mi", "tu", # Añadir stop words aquí si es necesario, la lista estaba incompleta en la versión anterior
+                  "nuestro", "vuestro", "este", "ese", "aquel", "esta", "esa", "aquella", "esto", "eso", "aquello", "mis", "tus",
                   "nuestros", "vuestros", "estas", "esas", "aquellas", "si", "no", "más", "menos", "sin", "sobre", "bajo", "entre", "hasta", "desde", "durante", "mediante", "según", "versus", "via", "cada", "todo", "todos", "toda", "todas", "poco", "pocos", "poca", "pocas", "mucho", "muchos", "mucha", "muchas", "varios", "varias", "otro", "otros", "otra", "otras", "mismo", "misma", "mismos", "mismas", "tan", "tanto", "tanta", "tantos", "tantas", "tal", "tales", "cual", "cuales", "cuyo", "cuya", "cuyos", "cuyas", "quien", "quienes", "cuan", "cuanto", "cuanta", "cuantos", "cuantas", "como", "donde", "cuando", "porque", "aunque", "mientras", "siempre", "nunca", "jamás", "muy", "casi", "solo", "solamente", "incluso", "apenas", "quizás", "tal vez", "acaso", "claro", "cierto", "obvio", "evidentemente", "realmente", "simplemente", "generalmente", "especialmente", "principalmente", "posiblemente", "probablemente", "difícilmente", "fácilmente", "rápidamente", "lentamente", "bien", "mal", "mejor", "peor", "arriba", "abajo", "adelante", "atrás", "cerca", "lejos", "dentro", "fuera", "encima", "debajo", "frente", "detrás", "antes", "después", "luego", "pronto", "tarde", "todavía", "ya", "aun", "aún", "quizá"}
     valid_words = [word for word in words if len(word) > 3 and word not in stop_words]
     audio_tts_original = None
     musica_audio_original = None
+    audio_tts = None
+    musica_audio = None
     video_base = None
     video_final = None
     source_clips = []
         # 2. Generar audio de voz
         logger.info("Generando audio de voz...")
         voz_path = os.path.join(temp_dir_intermediate, "voz.mp3")
+        # Usar voz de Juan
         if not asyncio.run(text_to_speech(guion, voz_path, voice="es-ES-JuanNeural")):
             logger.error("Fallo en generación de voz")
             raise ValueError("Error generando voz a partir del guion.")
         audio_tts_original = AudioFileClip(voz_path)
         if audio_tts_original.reader is None or audio_tts_original.duration is None or audio_tts_original.duration <= 0:
+            logger.critical("Clip de audio TTS inicial es inválido (reader is None o duración <= 0).")
             try: audio_tts_original.close()
             except: pass
             audio_tts_original = None
+            raise ValueError("Audio de voz generado es inválido.")
+        audio_tts = audio_tts_original # Usar el clip TTS válido original para la mezcla
+        audio_duration = audio_tts_original.duration # Usar duración original para la longitud del video
         logger.info(f"Duración audio voz: {audio_duration:.2f} segundos")
         if audio_duration < 1.0:
                 source_clips.append(clip)
                 if clip.reader is None or clip.duration is None or clip.duration <= 0:
+                    logger.warning(f"[{i+1}/{len(video_paths)}] Clip fuente {path} parece inválido (reader is None o duración <= 0). Saltando.")
                     continue
                 remaining_needed = audio_duration - current_duration
             num_full_repeats = int(audio_duration // final_video_base.duration)
             remaining_duration = audio_duration % final_video_base.duration
+            repeated_clips_list = [final_video_base] * num_full_repeats # Lista contiene duplicados del mismo objeto clip
             if remaining_duration > 0:
                 try:
                     remaining_clip = final_video_base.subclip(0, remaining_duration)
                  finally:
                      if 'repeated_clips_list' in locals():
                          for clip in repeated_clips_list:
+                              if clip is not final_video_base: # No cerrar si es el clip final
                                    try: clip.close()
                                    except: pass
                      except: pass
                      musica_audio_original = None
                 else:
+                     # Usar la duración correcta del video base para loopear la música
                      musica_audio_looped = loop_audio_to_length(musica_audio_original, video_base.duration)
                      logger.debug(f"Música ajustada a duración del video: {musica_audio_looped.duration:.2f}s")
                 if musica_audio_looped:
+                    # Usar la música loopeada y el audio TTS original para la composición
                     composite_audio = CompositeAudioClip([
+                        musica_audio_looped.volumex(0.2), # Volumen 20% para música
+                        audio_tts_original.volumex(1.0) # Volumen 100% para voz
                     ])
                     if composite_audio.duration is None or composite_audio.duration <= 0:
                     else:
                          logger.info("Mezcla de audio completada (voz + música).")
                          final_audio = composite_audio
+                         musica_audio = musica_audio_looped # Asignar para limpieza
             except Exception as e:
                 logger.warning(f"Error procesando música de fondo: {str(e)}", exc_info=True)
             try:
                  if final_audio.duration > video_base.duration:
                       trimmed_final_audio = final_audio.subclip(0, video_base.duration)
+                      if trimmed_final_audio is None or trimmed_final_audio.duration <= 0:
                            logger.warning("Audio final recortado es inválido. Usando audio final original.")
                            try: trimmed_final_audio.close()
                            except: pass
              except Exception as e:
                  logger.warning(f"Error cerrando segmento de video en finally: {str(e)}")
+        # Cerrar clips de audio en orden: música loopeada, música original (si es diferente), TTS original
+        if musica_audio is not None: # musica_audio holds the potentially looped clip
+            try:
+                musica_audio.close()
+            except Exception as e:
+                logger.warning(f"Error cerrando musica_audio (procesada) en finally: {str(e)}")
+        if musica_audio_original is not None and musica_audio_original is not musica_audio:
+             try:
+                 musica_audio_original.close()
+             except Exception as e:
+                 logger.warning(f"Error cerrando musica_audio_original en finally: {str(e)}")
+        # audio_tts actualmente solo contiene audio_tts_original, pero se mantiene la estructura
+        if audio_tts is not None and audio_tts is not audio_tts_original:
+             try:
+                 audio_tts.close()
+             except Exception as e:
+                 logger.warning(f"Error cerrando audio_tts (procesada) en finally: {str(e)}")
+        if audio_tts_original is not None:
+             try:
+                 audio_tts_original.close()
+             except Exception as e:
+                 logger.warning(f"Error cerrando audio_tts_original en finally: {str(e)}")
+        # Cerrar clips de video en orden: video_final (debería cerrar sus componentes), luego video_base (si es diferente de video_final)
+        if video_final is not None:
+            try:
+                video_final.close()
+            except Exception as e:
+                logger.warning(f"Error cerrando video_final en finally: {str(e)}")
+        elif video_base is not None and video_base is not video_final: # Asegurarse de que video_base no es el mismo objeto que video_final
+             try:
+                 video_base.close()
+             except Exception as e:
+                 logger.warning(f"Error cerrando video_base en finally: {str(e)}")
         # Limpiar archivos intermedios, pero NO el archivo de video final
         if temp_dir_intermediate and os.path.exists(temp_dir_intermediate):