metadata
title: VideoAvatar
emoji: 🧑🎤
colorFrom: blue
colorTo: red
sdk: gradio
sdk_version: 5.32.1
app_file: app.py
pinned: true
license: mit
🎥 VideoAvatar - IA de Sincronización Labial con Audio Personalizado
Este proyecto permite grabar audio directamente desde el navegador, transcribirlo con modelos Whisper, generar una respuesta con OpenAI GPT-4, sintetizar voz con gTTS y generar un video sincronizado usando Wav2Lip en su versión optimizada con OpenVINO.
🧠 Flujo de trabajo:
- Grabación de voz desde el navegador.
- Transcripción automática usando
openai/whisper-large. - Generación de respuesta con GPT-4 (
langchain+OpenAI API). - Conversión texto → voz (
gTTS). - Procesamiento final de video con sincronización labial (
Wav2Lip+ OpenVINO).
🗂 Estructura
app.py: punto de entrada para Spaces.src/: módulos de procesamiento.assets/: contiene videos y audios.results/: salidas del sistema (audio TTS, video final, transcripción).
✅ Requisitos
Declarados en requirements.txt. Incluye:
gradiotransformerstorchlibrosasoundfilegttsopenvinoopencv-python-headlesspython-dotenv
🚧 Notas
Este proyecto requiere que los modelos
.xmlde OpenVINO estén preconvertidos y accesibles. Si se ejecuta fuera de Hugging Face, asegúrate de usarconvert_models.pyy tener los modelos enmodels/.
¿Deseas que lo genere automáticamente en un archivo para que lo agregues al repo (README.md) o prefieres copiarlo tú manualmente?