Spaces:

fireedman
/

EKNA_V1

Running

App Files Files Community

EKNA_V1 / README.md

fireedman

Update README.md

67d0ba0 verified 4 days ago

preview code

raw

history blame contribute delete

1.58 kB

	---
	title: VideoAvatar
	emoji: 🧑‍🎤
	colorFrom: blue
	colorTo: red
	sdk: gradio
	sdk_version: 5.32.1
	app_file: app.py
	pinned: true
	license: mit
	---

	# 🎥 VideoAvatar - IA de Sincronización Labial con Audio Personalizado

	Este proyecto permite grabar audio directamente desde el navegador, transcribirlo con modelos `Whisper`, generar una respuesta con `OpenAI GPT-4`, sintetizar voz con `gTTS` y generar un video sincronizado usando `Wav2Lip` en su versión optimizada con OpenVINO.

	## 🧠 Flujo de trabajo:

	1. Grabación de voz desde el navegador.
	2. Transcripción automática usando `openai/whisper-large`.
	3. Generación de respuesta con GPT-4 (`langchain` + `OpenAI API`).
	4. Conversión texto → voz (`gTTS`).
	5. Procesamiento final de video con sincronización labial (`Wav2Lip` + OpenVINO).

	## 🗂 Estructura

	- `app.py`: punto de entrada para Spaces.
	- `src/`: módulos de procesamiento.
	- `assets/`: contiene videos y audios.
	- `results/`: salidas del sistema (audio TTS, video final, transcripción).

	## ✅ Requisitos

	Declarados en `requirements.txt`. Incluye:
	- `gradio`
	- `transformers`
	- `torch`
	- `librosa`
	- `soundfile`
	- `gtts`
	- `openvino`
	- `opencv-python-headless`
	- `python-dotenv`

	## 🚧 Notas

	> Este proyecto requiere que los modelos `.xml` de OpenVINO estén preconvertidos y accesibles. Si se ejecuta fuera de Hugging Face, asegúrate de usar `convert_models.py` y tener los modelos en `models/`.

	---

	¿Deseas que lo genere automáticamente en un archivo para que lo agregues al repo (`README.md`) o prefieres copiarlo tú manualmente?