|
--- |
|
title: VideoAvatar |
|
emoji: 🧑🎤 |
|
colorFrom: blue |
|
colorTo: red |
|
sdk: gradio |
|
sdk_version: 5.32.1 |
|
app_file: app.py |
|
pinned: true |
|
license: mit |
|
--- |
|
|
|
# 🎥 VideoAvatar - IA de Sincronización Labial con Audio Personalizado |
|
|
|
Este proyecto permite grabar audio directamente desde el navegador, transcribirlo con modelos `Whisper`, generar una respuesta con `OpenAI GPT-4`, sintetizar voz con `gTTS` y generar un video sincronizado usando `Wav2Lip` en su versión optimizada con OpenVINO. |
|
|
|
## 🧠 Flujo de trabajo: |
|
|
|
1. Grabación de voz desde el navegador. |
|
2. Transcripción automática usando `openai/whisper-large`. |
|
3. Generación de respuesta con GPT-4 (`langchain` + `OpenAI API`). |
|
4. Conversión texto → voz (`gTTS`). |
|
5. Procesamiento final de video con sincronización labial (`Wav2Lip` + OpenVINO). |
|
|
|
## 🗂 Estructura |
|
|
|
- `app.py`: punto de entrada para Spaces. |
|
- `src/`: módulos de procesamiento. |
|
- `assets/`: contiene videos y audios. |
|
- `results/`: salidas del sistema (audio TTS, video final, transcripción). |
|
|
|
## ✅ Requisitos |
|
|
|
Declarados en `requirements.txt`. Incluye: |
|
- `gradio` |
|
- `transformers` |
|
- `torch` |
|
- `librosa` |
|
- `soundfile` |
|
- `gtts` |
|
- `openvino` |
|
- `opencv-python-headless` |
|
- `python-dotenv` |
|
|
|
## 🚧 Notas |
|
|
|
> Este proyecto requiere que los modelos `.xml` de OpenVINO estén preconvertidos y accesibles. Si se ejecuta fuera de Hugging Face, asegúrate de usar `convert_models.py` y tener los modelos en `models/`. |
|
|
|
--- |
|
|
|
¿Deseas que lo genere automáticamente en un archivo para que lo agregues al repo (`README.md`) o prefieres copiarlo tú manualmente? |