metadata

title: VideoAvatar
emoji: 🧑‍🎤
colorFrom: blue
colorTo: red
sdk: gradio
sdk_version: 5.32.1
app_file: app.py
pinned: true
license: mit

🎥 VideoAvatar - IA de Sincronización Labial con Audio Personalizado

Este proyecto permite grabar audio directamente desde el navegador, transcribirlo con modelos Whisper, generar una respuesta con OpenAI GPT-4, sintetizar voz con gTTS y generar un video sincronizado usando Wav2Lip en su versión optimizada con OpenVINO.

🧠 Flujo de trabajo:

Grabación de voz desde el navegador.
Transcripción automática usando openai/whisper-large.
Generación de respuesta con GPT-4 (langchain + OpenAI API).
Conversión texto → voz (gTTS).
Procesamiento final de video con sincronización labial (Wav2Lip + OpenVINO).

🗂 Estructura

app.py: punto de entrada para Spaces.
src/: módulos de procesamiento.
assets/: contiene videos y audios.
results/: salidas del sistema (audio TTS, video final, transcripción).

✅ Requisitos

Declarados en requirements.txt. Incluye:

gradio
transformers
torch
librosa
soundfile
gtts
openvino
opencv-python-headless
python-dotenv

🚧 Notas

Este proyecto requiere que los modelos .xml de OpenVINO estén preconvertidos y accesibles. Si se ejecuta fuera de Hugging Face, asegúrate de usar convert_models.py y tener los modelos en models/.

¿Deseas que lo genere automáticamente en un archivo para que lo agregues al repo (README.md) o prefieres copiarlo tú manualmente?