File size: 1,579 Bytes
d463f10
 
17f4bd9
67d0ba0
 
d463f10
67d0ba0
d463f10
17f4bd9
67d0ba0
17f4bd9
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
67d0ba0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
---
title: VideoAvatar
emoji: 🧑‍🎤
colorFrom: blue
colorTo: red
sdk: gradio
sdk_version: 5.32.1
app_file: app.py
pinned: true
license: mit
---

# 🎥 VideoAvatar - IA de Sincronización Labial con Audio Personalizado

Este proyecto permite grabar audio directamente desde el navegador, transcribirlo con modelos `Whisper`, generar una respuesta con `OpenAI GPT-4`, sintetizar voz con `gTTS` y generar un video sincronizado usando `Wav2Lip` en su versión optimizada con OpenVINO.

## 🧠 Flujo de trabajo:

1. Grabación de voz desde el navegador.
2. Transcripción automática usando `openai/whisper-large`.
3. Generación de respuesta con GPT-4 (`langchain` + `OpenAI API`).
4. Conversión texto → voz (`gTTS`).
5. Procesamiento final de video con sincronización labial (`Wav2Lip` + OpenVINO).

## 🗂 Estructura

- `app.py`: punto de entrada para Spaces.
- `src/`: módulos de procesamiento.
- `assets/`: contiene videos y audios.
- `results/`: salidas del sistema (audio TTS, video final, transcripción).

## ✅ Requisitos

Declarados en `requirements.txt`. Incluye:
- `gradio`
- `transformers`
- `torch`
- `librosa`
- `soundfile`
- `gtts`
- `openvino`
- `opencv-python-headless`
- `python-dotenv`

## 🚧 Notas

> Este proyecto requiere que los modelos `.xml` de OpenVINO estén preconvertidos y accesibles. Si se ejecuta fuera de Hugging Face, asegúrate de usar `convert_models.py` y tener los modelos en `models/`.

---

¿Deseas que lo genere automáticamente en un archivo para que lo agregues al repo (`README.md`) o prefieres copiarlo tú manualmente?