A newer version of the Gradio SDK is available:
5.33.0
metadata
title: VideoAvatar
emoji: 🧑🎤
colorFrom: blue
colorTo: red
sdk: gradio
sdk_version: 5.32.1
app_file: app.py
pinned: true
license: mit
🎥 VideoAvatar - IA de Sincronización Labial con Audio Personalizado
Este proyecto permite grabar audio directamente desde el navegador, transcribirlo con modelos Whisper
, generar una respuesta con OpenAI GPT-4
, sintetizar voz con gTTS
y generar un video sincronizado usando Wav2Lip
en su versión optimizada con OpenVINO.
🧠 Flujo de trabajo:
- Grabación de voz desde el navegador.
- Transcripción automática usando
openai/whisper-large
. - Generación de respuesta con GPT-4 (
langchain
+OpenAI API
). - Conversión texto → voz (
gTTS
). - Procesamiento final de video con sincronización labial (
Wav2Lip
+ OpenVINO).
🗂 Estructura
app.py
: punto de entrada para Spaces.src/
: módulos de procesamiento.assets/
: contiene videos y audios.results/
: salidas del sistema (audio TTS, video final, transcripción).
✅ Requisitos
Declarados en requirements.txt
. Incluye:
gradio
transformers
torch
librosa
soundfile
gtts
openvino
opencv-python-headless
python-dotenv
🚧 Notas
Este proyecto requiere que los modelos
.xml
de OpenVINO estén preconvertidos y accesibles. Si se ejecuta fuera de Hugging Face, asegúrate de usarconvert_models.py
y tener los modelos enmodels/
.
¿Deseas que lo genere automáticamente en un archivo para que lo agregues al repo (README.md
) o prefieres copiarlo tú manualmente?