File size: 1,579 Bytes
d463f10 17f4bd9 67d0ba0 d463f10 67d0ba0 d463f10 17f4bd9 67d0ba0 17f4bd9 67d0ba0 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 |
---
title: VideoAvatar
emoji: 🧑🎤
colorFrom: blue
colorTo: red
sdk: gradio
sdk_version: 5.32.1
app_file: app.py
pinned: true
license: mit
---
# 🎥 VideoAvatar - IA de Sincronización Labial con Audio Personalizado
Este proyecto permite grabar audio directamente desde el navegador, transcribirlo con modelos `Whisper`, generar una respuesta con `OpenAI GPT-4`, sintetizar voz con `gTTS` y generar un video sincronizado usando `Wav2Lip` en su versión optimizada con OpenVINO.
## 🧠 Flujo de trabajo:
1. Grabación de voz desde el navegador.
2. Transcripción automática usando `openai/whisper-large`.
3. Generación de respuesta con GPT-4 (`langchain` + `OpenAI API`).
4. Conversión texto → voz (`gTTS`).
5. Procesamiento final de video con sincronización labial (`Wav2Lip` + OpenVINO).
## 🗂 Estructura
- `app.py`: punto de entrada para Spaces.
- `src/`: módulos de procesamiento.
- `assets/`: contiene videos y audios.
- `results/`: salidas del sistema (audio TTS, video final, transcripción).
## ✅ Requisitos
Declarados en `requirements.txt`. Incluye:
- `gradio`
- `transformers`
- `torch`
- `librosa`
- `soundfile`
- `gtts`
- `openvino`
- `opencv-python-headless`
- `python-dotenv`
## 🚧 Notas
> Este proyecto requiere que los modelos `.xml` de OpenVINO estén preconvertidos y accesibles. Si se ejecuta fuera de Hugging Face, asegúrate de usar `convert_models.py` y tener los modelos en `models/`.
---
¿Deseas que lo genere automáticamente en un archivo para que lo agregues al repo (`README.md`) o prefieres copiarlo tú manualmente? |