Spaces:

GAS17
/

mp4tomp3

Sleeping

File size: 3,952 Bytes

import gradio as gr
import moviepy.editor as mp
import tempfile
import os
import requests
import base64

def extraer_audio(video_file):
    """
    Función que recibe la ruta de un archivo de video, extrae el audio y lo guarda
    en un archivo temporal .mp3. Retorna una tupla: (ruta_del_mp3_o_None, mensaje).
    """
    # Crear archivo temporal para el MP3, sin borrarlo automáticamente
    with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as temp_audio:
        temp_audio_path = temp_audio.name
    try:
        # Cargar el video (soporta varios formatos) y extraer el audio
        clip = mp.VideoFileClip(video_file)
        clip.audio.write_audiofile(temp_audio_path, logger=None)
        clip.close()
        return temp_audio_path, "¡Audio extraído exitosamente!"
    except Exception as e:
        if os.path.exists(temp_audio_path):
            os.remove(temp_audio_path)
        return None, f"Error al procesar el video: {str(e)}"

def transcribir_audio(audio_file_path):
    """
    Función que utiliza la API de FAL para transcribir un archivo de audio.
    Devuelve una tupla: (transcripción, mensaje)
    """
    fal_key = os.environ.get("FAL_KEY")
    if not fal_key:
        return "", "Error: FAL_KEY no está configurada en las variables de entorno."
    try:
        # Leer y codificar el audio en base64 para formar un data URI
        with open(audio_file_path, "rb") as f:
            audio_data = f.read()
        encoded_audio = base64.b64encode(audio_data).decode("utf-8")
        data_uri = f"data:audio/mp3;base64,{encoded_audio}"

        # Configurar el payload para la solicitud a la API de FAL
        payload = {
            "input": {
                "audio_url": data_uri,
                "task": "transcribe",
                "chunk_level": "segment",
                "version": "3",
                "batch_size": 64,
                "num_speakers": None
            },
            "logs": True
        }

        headers = {
            "Content-Type": "application/json",
            "Authorization": f"Bearer {fal_key}"
        }

        # Endpoint de la API de FAL (ajusta si es necesario según la documentación oficial)
        endpoint = "https://api.fal.ai/subscribe/fal-ai/whisper"

        response = requests.post(endpoint, json=payload, headers=headers)
        if response.status_code == 200:
            result = response.json()
            transcription = result.get("data", {}).get("text", "")
            return transcription, "Transcripción completada exitosamente."
        else:
            return "", f"Error en transcripción: {response.status_code} - {response.text}"
    except Exception as e:
        return "", f"Error al transcribir el audio: {str(e)}"

def procesar_video(video_file):
    """
    Función principal que extrae el audio de un video y luego lo transcribe.
    Retorna una tupla: (ruta_del_mp3, transcripción, mensaje)
    """
    audio_path, msg_audio = extraer_audio(video_file)
    if not audio_path:
        return None, "", msg_audio
    transcription, msg_transcripcion = transcribir_audio(audio_path)
    mensaje = f"{msg_audio}\n{msg_transcripcion}"
    return audio_path, transcription, mensaje

iface = gr.Interface(
    fn=procesar_video,
    inputs=gr.File(label="Sube tu archivo de video (.mp4, .avi, .mkv, etc.)"),
    outputs=[
        gr.File(label="Descarga el audio en formato MP3"),
        gr.Textbox(label="Transcripción"),
        gr.Textbox(label="Mensaje de estado")
    ],
    title="Extracción de Audio y Transcripción de Video a MP3",
    description="Esta aplicación extrae el audio de un video, lo convierte a .mp3 y realiza la transcripción utilizando la API de FAL.\n" \
                "Requisitos:\n" \
                "• Instalar: pip install gradio moviepy requests\n" \
                "• Configurar la variable de entorno FAL_KEY con tu API key de FAL."
)

if __name__ == "__main__":
    iface.launch()