EKNA_V1 / README.md
fireedman's picture
Update README.md
67d0ba0 verified

A newer version of the Gradio SDK is available: 5.33.0

Upgrade
metadata
title: VideoAvatar
emoji: 🧑‍🎤
colorFrom: blue
colorTo: red
sdk: gradio
sdk_version: 5.32.1
app_file: app.py
pinned: true
license: mit

🎥 VideoAvatar - IA de Sincronización Labial con Audio Personalizado

Este proyecto permite grabar audio directamente desde el navegador, transcribirlo con modelos Whisper, generar una respuesta con OpenAI GPT-4, sintetizar voz con gTTS y generar un video sincronizado usando Wav2Lip en su versión optimizada con OpenVINO.

🧠 Flujo de trabajo:

  1. Grabación de voz desde el navegador.
  2. Transcripción automática usando openai/whisper-large.
  3. Generación de respuesta con GPT-4 (langchain + OpenAI API).
  4. Conversión texto → voz (gTTS).
  5. Procesamiento final de video con sincronización labial (Wav2Lip + OpenVINO).

🗂 Estructura

  • app.py: punto de entrada para Spaces.
  • src/: módulos de procesamiento.
  • assets/: contiene videos y audios.
  • results/: salidas del sistema (audio TTS, video final, transcripción).

✅ Requisitos

Declarados en requirements.txt. Incluye:

  • gradio
  • transformers
  • torch
  • librosa
  • soundfile
  • gtts
  • openvino
  • opencv-python-headless
  • python-dotenv

🚧 Notas

Este proyecto requiere que los modelos .xml de OpenVINO estén preconvertidos y accesibles. Si se ejecuta fuera de Hugging Face, asegúrate de usar convert_models.py y tener los modelos en models/.


¿Deseas que lo genere automáticamente en un archivo para que lo agregues al repo (README.md) o prefieres copiarlo tú manualmente?