Spaces:

fireedman
/

EKNA_V1

Running

App Files Files Community

fireedman commited on Jun 3

Commit

17f4bd9

verified ·

1 Parent(s): 9d1c02d

Update README.md

Browse files

Files changed (1) hide show

README.md +44 -4

README.md CHANGED Viewed

@@ -1,10 +1,50 @@
 ---
 title: VideoAvatar
-emoji: 🎥
 colorFrom: red
 colorTo: pink
 sdk: gradio
-sdk_version: 5.32.1
 app_file: app.py
-pinned: false
----

 ---
 title: VideoAvatar
+emoji: 🧑‍🎤
 colorFrom: red
 colorTo: pink
 sdk: gradio
+sdk_version: 4.12.0
 app_file: app.py
+pinned: true
+---
+# 🎥 VideoAvatar - IA de Sincronización Labial con Audio Personalizado
+Este proyecto permite grabar audio directamente desde el navegador, transcribirlo con modelos `Whisper`, generar una respuesta con `OpenAI GPT-4`, sintetizar voz con `gTTS` y generar un video sincronizado usando `Wav2Lip` en su versión optimizada con OpenVINO.
+## 🧠 Flujo de trabajo:
+1. Grabación de voz desde el navegador.
+2. Transcripción automática usando `openai/whisper-large`.
+3. Generación de respuesta con GPT-4 (`langchain` + `OpenAI API`).
+4. Conversión texto → voz (`gTTS`).
+5. Procesamiento final de video con sincronización labial (`Wav2Lip` + OpenVINO).
+## 🗂 Estructura
+- `app.py`: punto de entrada para Spaces.
+- `src/`: módulos de procesamiento.
+- `assets/`: contiene videos y audios.
+- `results/`: salidas del sistema (audio TTS, video final, transcripción).
+## ✅ Requisitos
+Declarados en `requirements.txt`. Incluye:
+- `gradio`
+- `transformers`
+- `torch`
+- `librosa`
+- `soundfile`
+- `gtts`
+- `openvino`
+- `opencv-python-headless`
+- `python-dotenv`
+## 🚧 Notas
+> Este proyecto requiere que los modelos `.xml` de OpenVINO estén preconvertidos y accesibles. Si se ejecuta fuera de Hugging Face, asegúrate de usar `convert_models.py` y tener los modelos en `models/`.
+---
+¿Deseas que lo genere automáticamente en un archivo para que lo agregues al repo (`README.md`) o prefieres copiarlo tú manualmente?