Spaces:

alisartazkhan
/

tempo_control2

Sleeping

Ali Sartaz Khan

Add application file

3c8c320 about 2 months ago

14.9 kB

	import argparse
	import asyncio
	import random
	import textwrap
	import time

	import gradio as gr
	import xxhash
	from dotenv import load_dotenv
	from transformers import pipeline

	import talk_arena.streaming_helpers as sh
	from talk_arena.db_utils import TinyThreadSafeDB


	load_dotenv()


	def parse_args():
	parser = argparse.ArgumentParser(description="Talk Arena Demo")
	parser.add_argument("--free_only", action="store_true", help="Only use free models")
	return parser.parse_args()


	args = parse_args()

	if gr.NO_RELOAD: # Prevents Re-init during hot reloading
	# Transcription Disabled for Public Interface
	# asr_pipe = pipeline(
	# task="automatic-speech-recognition",
	# model="openai/whisper-large-v3-turbo",
	# chunk_length_s=30,
	# device="cuda:1",
	# )

	anonymous = True

	# Generation Setup
	diva_audio, diva = sh.api_streaming("WillHeld/DiVA-llama-3-v0-8b")
	qwen2_audio, qwen2 = sh.api_streaming("Qwen/Qwen2-Audio-7B-Instruct")
	pipelined_system, pipeline_model = sh.api_streaming("pipeline/meta-llama/Meta-Llama-3-8B-Instruct")
	if not args.free_only:
	gemini_audio, gemini_model = sh.gemini_streaming("models/gemini-1.5-flash")
	gpt4o_audio, gpt4o_model = sh.gpt4o_streaming("models/gpt4o")
	geminip_audio, geminip_model = sh.gemini_streaming("models/gemini-1.5-pro")
	gemini2_audio, gemini2_model = sh.gemini_streaming("models/gemini-2.0-flash-exp")
	typhoon_audio, typhoon_model = sh.api_streaming("scb10x/llama-3-typhoon-audio-8b-2411")

	competitor_info = [
	(sh.gradio_gen_factory(diva_audio, "DiVA Llama 3 8B", anonymous), "diva_3_8b", "DiVA Llama 3 8B"),
	(sh.gradio_gen_factory(qwen2_audio, "Qwen 2", anonymous), "qwen2", "Qwen 2 Audio"),
	(
	sh.gradio_gen_factory(pipelined_system, "Pipelined Llama 3 8B", anonymous),
	"pipe_l3.0",
	"Pipelined Llama 3 8B",
	),
	(sh.gradio_gen_factory(typhoon_audio, "Typhoon Audio", anonymous), "typhoon_audio", "Typhoon Audio"),
	]
	# Add paid models if flag is not set
	if not args.free_only:
	competitor_info += [
	(sh.gradio_gen_factory(gemini_audio, "Gemini 1.5 Flash", anonymous), "gemini_1.5f", "Gemini 1.5 Flash"),
	(sh.gradio_gen_factory(gpt4o_audio, "GPT4o", anonymous), "gpt4o", "GPT-4o"),
	(sh.gradio_gen_factory(geminip_audio, "Gemini 1.5 Pro", anonymous), "gemini_1.5p", "Gemini 1.5 Pro"),
	(sh.gradio_gen_factory(geminip_audio, "Gemini 2 Flash", anonymous), "gemini_2f", "Gemini 2 Flash"),
	]

	resp_generators = [generator for generator, _, _ in competitor_info]
	model_shorthand = [shorthand for _, shorthand, _ in competitor_info]
	model_name = [full_name for _, _, full_name in competitor_info]
	all_models = list(range(len(model_shorthand)))


	async def pairwise_response_async(audio_input, state, model_order):
	if audio_input == None:
	raise StopAsyncIteration(
	"",
	"",
	gr.Button(visible=False),
	gr.Button(visible=False),
	gr.Button(visible=False),
	state,
	audio_input,
	None,
	None,
	None,
	)
	spinner_id = 0
	spinners = ["◐ ", "◓ ", "◑", "◒"]
	spinner = spinners[0]
	gen_pair = [resp_generators[model_order[0]], resp_generators[model_order[1]]]
	latencies = [{}, {}] # Store timing info for each model
	resps = [gr.Textbox(value="", info="", visible=False), gr.Textbox(value="", info="", visible=False)]

	error_in_model = False
	for order, generator in enumerate(gen_pair):
	start_time = time.time()
	first_token = True
	total_length = 0
	try:
	async for local_resp in generator(audio_input, order):
	total_length += 1
	if first_token:
	latencies[order]["time_to_first_token"] = time.time() - start_time
	first_token = False
	resps[order] = local_resp
	spinner = spinners[spinner_id]
	spinner_id = (spinner_id + 1) % 4
	yield (
	gr.Button(
	value=spinner + " Generating Responses " + spinner,
	interactive=False,
	variant="primary",
	),
	resps[0],
	resps[1],
	gr.Button(visible=False),
	gr.Button(visible=False),
	gr.Button(visible=False),
	state,
	audio_input,
	None,
	None,
	latencies,
	)
	latencies[order]["total_time"] = time.time() - start_time
	latencies[order]["response_length"] = total_length
	except:
	error_in_model = True
	resps[order] = gr.Textbox(
	info=f"<strong>Error thrown by Model {order+1} API</strong>",
	value="" if first_token else resps[order]._constructor_args[0]["value"],
	visible=True,
	label=f"Model {order+1}",
	)
	yield (
	gr.Button(
	value=spinner + " Generating Responses " + spinner,
	interactive=False,
	variant="primary",
	),
	resps[0],
	resps[1],
	gr.Button(visible=False),
	gr.Button(visible=False),
	gr.Button(visible=False),
	state,
	audio_input,
	None,
	None,
	latencies,
	)
	latencies[order]["total_time"] = time.time() - start_time
	latencies[order]["response_length"] = total_length
	print(latencies)
	yield (
	gr.Button(value="Vote for which model is better!", interactive=False, variant="primary", visible=False),
	resps[0],
	resps[1],
	gr.Button(visible=not error_in_model),
	gr.Button(visible=not error_in_model),
	gr.Button(visible=not error_in_model),
	responses_complete(state),
	audio_input,
	gr.Textbox(visible=False),
	gr.Audio(visible=False),
	latencies,
	)


	def on_page_load(state, model_order):
	if state == 0:
	# gr.Info(
	# "Record something you'd say to an AI Assistant! Think about what you usually use Siri, Google Assistant,"
	# " or ChatGPT for."
	# )
	state = 1
	model_order = random.sample(all_models, 2) if anonymous else model_order
	return state, model_order


	def recording_complete(state):
	if state == 1:
	# gr.Info(
	# "Once you submit your recording, you'll receive responses from different models. This might take a second."
	# )
	state = 2
	return (
	gr.Button(value="Starting Generation", interactive=False, variant="primary"),
	state,
	)


	def responses_complete(state):
	if state == 2:
	gr.Info(
	"Give us your feedback! Mark which model gave you the best response so we can understand the quality of"
	" these different voice assistant models."
	)
	state = 3
	return state


	def clear_factory(button_id):
	async def clear(audio_input, model_order, pref_counter, reasoning, latency):
	textbox1 = gr.Textbox(visible=False)
	textbox2 = gr.Textbox(visible=False)
	if button_id != None:
	sr, y = audio_input
	x = xxhash.xxh32(bytes(y)).hexdigest()
	await db.insert(
	{
	"audio_hash": x,
	"outcome": button_id,
	"model_a": model_shorthand[model_order[0]],
	"model_b": model_shorthand[model_order[1]],
	"why": reasoning,
	"model_a_latency": latency[0],
	"model_b_latency": latency[1],
	}
	)
	pref_counter += 1
	model_a = model_name[model_order[0]]
	model_b = model_name[model_order[1]]
	textbox1 = gr.Textbox(
	visible=True,
	info=f"<strong style='color: #53565A'>Response from {model_a}</strong><p>Time-to-First-Character: {latency[0]['time_to_first_token']:.2f} ms, Time Per Character: {latency[0]['total_time']/latency[0]['response_length']:.2f} ms</p>",
	)
	textbox2 = gr.Textbox(
	visible=True,
	info=f"<strong style='color: #53565A'>Response from {model_b}</strong><p>Time-to-First-Character: {latency[1]['time_to_first_token']:.2f} ms, Time Per Character: {latency[1]['total_time']/latency[1]['response_length']:.2f} ms</p>",
	)

	try:
	sr, y = audio_input
	x = xxhash.xxh32(bytes(y)).hexdigest()
	os.remove(f"{x}.wav")
	except:
	# file already deleted, this is just a failsafe to assure data is cleared
	pass
	counter_text = f"# {pref_counter}/10 Preferences Submitted"
	if pref_counter >= 10 and False: # Currently Disabled, Manages Prolific Completionx
	code = "PLACEHOLDER"
	counter_text = f"# Completed! Completion Code: {code}"
	counter_text = ""
	if anonymous:
	model_order = random.sample(all_models, 2)
	return (
	model_order,
	gr.Button(
	value="Record Audio to Submit Again!",
	interactive=False,
	visible=True,
	),
	gr.Button(visible=False),
	gr.Button(visible=False),
	gr.Button(visible=False),
	None,
	textbox1,
	textbox2,
	pref_counter,
	counter_text,
	gr.Textbox(visible=False),
	gr.Audio(visible=False),
	)

	return clear


	def transcribe(transc, voice_reason):
	if transc is None:
	transc = ""
	transc += " " + asr_pipe(voice_reason, generate_kwargs={"task": "transcribe"}, return_timestamps=False)["text"]
	return transc, gr.Audio(value=None)


	theme = gr.themes.Soft(
	primary_hue=gr.themes.Color(
	c100="#82000019",
	c200="#82000033",
	c300="#8200004c",
	c400="#82000066",
	c50="#8200007f",
	c500="#8200007f",
	c600="#82000099",
	c700="#820000b2",
	c800="#820000cc",
	c900="#820000e5",
	c950="#820000f2",
	),
	secondary_hue="rose",
	neutral_hue="stone",
	)

	with open("src/talk_arena/styles.css", "r") as css_file:
	custom_css = css_file.read()

	db = TinyThreadSafeDB("live_votes.json")

	with gr.Blocks(theme=theme, fill_height=True, css=custom_css) as demo:
	submitted_preferences = gr.State(0)
	state = gr.State(0)
	model_order = gr.State([])
	latency = gr.State([])
	with gr.Row():
	counter_text = gr.Markdown(
	""
	) # "# 0/10 Preferences Submitted.\n Follow the pop-up tips to submit your first preference.")
	with gr.Row():
	audio_input = gr.Audio(sources=["microphone"], streaming=False, label="Audio Input")

	with gr.Row(equal_height=True):
	with gr.Column(scale=1):
	out1 = gr.Textbox(visible=False, lines=5, autoscroll=True)
	with gr.Column(scale=1):
	out2 = gr.Textbox(visible=False, lines=5, autoscroll=True)

	with gr.Row():
	btn = gr.Button(value="Record Audio to Submit!", interactive=False)

	with gr.Row(equal_height=True):
	reason = gr.Textbox(label="[Optional] Explain Your Preferences", visible=False, scale=4)
	reason_record = gr.Audio(
	sources=["microphone"],
	interactive=True,
	streaming=False,
	label="Speak to transcribe!",
	visible=False,
	type="filepath",
	# waveform_options={"show_recording_waveform": False},
	scale=1,
	)

	with gr.Row():
	best1 = gr.Button(value="Model 1 is better", visible=False)
	tie = gr.Button(value="Tie", visible=False)
	best2 = gr.Button(value="Model 2 is better", visible=False)

	with gr.Row():
	contact = gr.Markdown("")

	# reason_record.stop_recording(transcribe, inputs=[reason, reason_record], outputs=[reason, reason_record])
	audio_input.stop_recording(
	recording_complete,
	[state],
	[btn, state],
	).then(
	fn=pairwise_response_async,
	inputs=[audio_input, state, model_order],
	outputs=[btn, out1, out2, best1, best2, tie, state, audio_input, reason, reason_record, latency],
	)
	audio_input.start_recording(
	lambda: gr.Button(value="Uploading Audio to Cloud", interactive=False, variant="primary"),
	None,
	btn,
	)
	best1.click(
	fn=clear_factory(0),
	inputs=[audio_input, model_order, submitted_preferences, reason, latency],
	outputs=[
	model_order,
	btn,
	best1,
	best2,
	tie,
	audio_input,
	out1,
	out2,
	submitted_preferences,
	counter_text,
	reason,
	reason_record,
	],
	)
	tie.click(
	fn=clear_factory(0.5),
	inputs=[audio_input, model_order, submitted_preferences, reason, latency],
	outputs=[
	model_order,
	btn,
	best1,
	best2,
	tie,
	audio_input,
	out1,
	out2,
	submitted_preferences,
	counter_text,
	reason,
	reason_record,
	],
	)
	best2.click(
	fn=clear_factory(1),
	inputs=[audio_input, model_order, submitted_preferences, reason, latency],
	outputs=[
	model_order,
	btn,
	best1,
	best2,
	tie,
	audio_input,
	out1,
	out2,
	submitted_preferences,
	counter_text,
	reason,
	reason_record,
	],
	)
	audio_input.clear(
	clear_factory(None),
	[audio_input, model_order, submitted_preferences, reason, latency],
	[
	model_order,
	btn,
	best1,
	best2,
	tie,
	audio_input,
	out1,
	out2,
	submitted_preferences,
	counter_text,
	reason,
	reason_record,
	],
	)
	demo.load(fn=on_page_load, inputs=[state, model_order], outputs=[state, model_order])

	if __name__ == "__main__":
	demo.queue(default_concurrency_limit=40, api_open=False).launch(share=True, ssr_mode=False)