Spaces:

Devakumar868
/

Maya-AI

Runtime error

App Files Files Community

Maya-AI / app.py

Devakumar868

Update app.py

036f56f verified 3 months ago

raw

history blame

2.79 kB

	import os
	import gradio as gr
	import torch
	import numpy as np
	from transformers import pipeline
	from pyannote.audio import Pipeline as PyannotePipeline
	from dia.model import Dia
	from dac.utils import load_model as load_dac_model
	from accelerate import init_empty_weights, load_checkpoint_and_dispatch

	# Environment token
	HF_TOKEN = os.environ["HF_TOKEN"]

	# Shard large models across 4× L4 GPUs
	device_map = "auto"

	# 1. RVQ codec (Descript Audio Codec)
	rvq = load_dac_model(tag="latest", model_type="44khz")
	rvq.eval()
	if torch.cuda.is_available(): rvq = rvq.to("cuda")

	# 2. Voice Activity Detection via Pyannote
	vad_pipe = PyannotePipeline.from_pretrained(
	"pyannote/voice-activity-detection",
	use_auth_token=HF_TOKEN
	)

	# 3. Ultravox pipeline (speech → text + LLM)
	ultravox_pipe = pipeline(
	model="fixie-ai/ultravox-v0_4",
	trust_remote_code=True,
	device_map=device_map,
	torch_dtype=torch.float16
	)

	# 4. Diffusion-based prosody model
	diff_pipe = pipeline(
	"audio-to-audio",
	model="teticio/audio-diffusion-instrumental-hiphop-256",
	trust_remote_code=True,
	device_map=device_map,
	torch_dtype=torch.float16
	)

	# 5. Dia TTS loaded with multi-GPU dispatch
	with init_empty_weights():
	dia = Dia.from_pretrained(
	"nari-labs/Dia-1.6B",
	torch_dtype=torch.float16,
	trust_remote_code=True
	)
	dia = load_checkpoint_and_dispatch(
	dia,
	"nari-labs/Dia-1.6B",
	device_map=device_map,
	dtype=torch.float16
	)

	# Inference function
	def process_audio(audio):
	sr, array = audio
	# Ensure numpy
	if torch.is_tensor(array): array = array.numpy()

	# VAD: extract speech regions
	chunks = vad_pipe(array, sampling_rate=sr)

	# RVQ encode/decode
	x = torch.tensor(array).unsqueeze(0).to("cuda")
	codes = rvq.encode(x)
	decoded = rvq.decode(codes).squeeze().cpu().numpy()

	# Ultravox ASR + LLM
	out = ultravox_pipe({"array": decoded, "sampling_rate": sr})
	text = out.get("text", "")

	# Diffusion prosody enhancement
	pros_audio = diff_pipe({"array": decoded, "sampling_rate": sr})["array"][0]

	# Dia TTS synthesis
	tts = dia.generate(f"[emotion:neutral] {text}")
	tts_np = tts.squeeze().cpu().numpy()
	tts_np = tts_np / np.max(np.abs(tts_np)) * 0.95

	return (sr, tts_np), text

	# Gradio UI
	with gr.Blocks(title="Maya AI 📈", theme=None) as demo:
	gr.Markdown("## Maya-AI: Supernatural Conversational Agent")
	audio_in = gr.Audio(source="microphone", type="numpy", label="Your Voice")
	send_btn = gr.Button("Send")
	audio_out = gr.Audio(label="AI’s Response")
	text_out = gr.Textbox(label="Generated Text")
	send_btn.click(process_audio, inputs=audio_in, outputs=[audio_out, text_out])

	if __name__ == "__main__":
	demo.launch()