Spaces:

VIDraft
/

voice-trans

Running on Zero

App Files Files Community

voice-trans / app.py

openfree

Update app.py

e49bf8d verified 2 months ago

raw

history blame

6.93 kB

	import gradio as gr
	import openai, os, io, tempfile, wave, time
	from dotenv import load_dotenv

	# =============== 공통 초기화 ========================================
	load_dotenv()
	api_key = os.getenv("OPENAI_API_KEY")
	if not api_key:
	raise RuntimeError("OPENAI_API_KEY를 .env 파일에 설정하세요!")
	client = openai.OpenAI(api_key=api_key)

	# ---------- 지원 언어 -----------------------------------------------
	LANGUAGES = [
	"Korean", "English", "Japanese", "Chinese",
	"Thai", "Russian", "Vietnamese",
	"Spanish", "French"
	]
	LANG_CODE = {
	"Korean": "ko", "English": "en", "Japanese": "ja", "Chinese": "zh",
	"Thai": "th", "Russian": "ru", "Vietnamese": "vi",
	"Spanish": "es", "French": "fr"
	}
	VOICE = {
	lang: ("nova" if lang in ["Korean", "Japanese", "Chinese"] else "alloy")
	for lang in LANGUAGES
	}

	# ---------- 공통 유틸 -----------------------------------------------
	def _gpt_translate(text: str, src: str, tgt: str) -> str:
	rsp = client.chat.completions.create(
	model="gpt-3.5-turbo",
	messages=[
	{
	"role": "system",
	"content": (
	f"You are a professional translator. Translate the following {src} text to {tgt}. "
	f"Only provide the translation without additional commentary."
	)
	},
	{"role": "user", "content": text}
	],
	temperature=0.3,
	max_tokens=2048
	)
	return rsp.choices[0].message.content.strip()

	def _tts(text: str, lang: str) -> str:
	out = client.audio.speech.create(
	model="tts-1",
	voice=VOICE.get(lang, "alloy"),
	input=text[:4096]
	)
	tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
	tmp.write(out.content)
	tmp.close()
	return tmp.name

	# =============== 1) 마이크·파일 공통 처리 ============================
	def translate_audio(audio_path, src, tgt):
	"""wav/mp3 경로 -> (원문, 번역문, 번역 TTS 경로)"""
	with open(audio_path, "rb") as f:
	stt = client.audio.transcriptions.create(
	model="whisper-1",
	file=f,
	language=LANG_CODE.get(src)
	)
	original = stt.text.strip()
	if not original:
	return "⚠️ 음성 인식 실패", "", None

	translated = _gpt_translate(original, src, tgt)
	tts_path = _tts(translated, tgt)
	return original, translated, tts_path

	# =============== 2) 실시간 스트리밍(베타) ============================
	STREAM_CHUNK_SEC = 4 # 4초마다 Whisper 호출

	def stream_generator(mic_stream, src, tgt):
	"""generator: 매 chunk마다 yield (원문누적, 번역누적)"""
	buffer = io.BytesIO()
	wav_header = None
	original_acc, translated_acc = "", ""

	while True:
	chunk = mic_stream.recv() # bytes
	if chunk is None: # 스트림 종료
	break

	if not wav_header:
	wav_header = chunk[:44] # WAV 헤더(PCM 16kHz 16bit mono)
	buffer.write(chunk)

	if buffer.getbuffer().nbytes > 16000 * 2 * STREAM_CHUNK_SEC:
	wav_bytes = wav_header + buffer.getvalue()
	with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
	tmp.write(wav_bytes)
	tmp.close()
	o, t, _ = translate_audio(tmp.name, src, tgt)

	original_acc += " " + o
	translated_acc += " " + t
	yield original_acc.strip(), translated_acc.strip()
	buffer = io.BytesIO() # reset buffer

	# 남은 데이터 처리
	if buffer.getbuffer().nbytes:
	wav_bytes = wav_header + buffer.getvalue()
	with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
	tmp.write(wav_bytes)
	tmp.close()
	o, t, _ = translate_audio(tmp.name, src, tgt)

	yield (original_acc + " " + o).strip(), (translated_acc + " " + t).strip()

	# =============== 3) 4개국어 동시 번역 ===============================
	FOUR_LANGS = ["English", "Chinese", "Thai", "Russian"]

	def translate_audio_four(audio_path, src):
	"""한 번의 STT 후 4개 언어(영/중/태/러)로 동시 번역"""
	with open(audio_path, "rb") as f:
	stt = client.audio.transcriptions.create(
	model="whisper-1",
	file=f,
	language=LANG_CODE.get(src)
	)
	original = stt.text.strip()
	if not original:
	return ["⚠️ 음성 인식 실패"] + [""] * 4

	outputs = [original]
	for lang in FOUR_LANGS:
	outputs.append(_gpt_translate(original, src, lang))
	return outputs # 총 5개 (원문 + 4언어)

	# =============== Gradio UI ==========================================
	# … (위쪽 공통 초기화/함수 동일) …

	with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
	with gr.Tabs():
	# ① 마이크 + 파일 번역 ← 수정
	with gr.TabItem("🎙️ 마이크/파일 번역"):
	src1 = gr.Dropdown(LANGUAGES, value="Korean", label="입력")
	tgt1 = gr.Dropdown(LANGUAGES, value="English", label="출력")
	mic1 = gr.Audio(
	sources=["microphone", "upload"], # ✅ 둘 다 허용
	type="filepath",
	label="🎤 녹음 또는 오디오 파일 업로드"
	)
	btn1 = gr.Button("번역")
	stt1 = gr.Textbox(label="원문", lines=5)
	tlt1 = gr.Textbox(label="번역", lines=5)
	out1 = gr.Audio(label="TTS", type="filepath", autoplay=True)

	btn1.click(
	translate_audio,
	inputs=[mic1, src1, tgt1],
	outputs=[stt1, tlt1, out1]
	)

	# ② 오디오 파일 전용 번역 (그대로)
	with gr.TabItem("🎧 파일 전용 번역"):
	src2 = gr.Dropdown(LANGUAGES, value="Korean", label="입력")
	tgt2 = gr.Dropdown(LANGUAGES, value="English", label="출력")
	file2 = gr.Audio(
	sources=["upload"],
	type="filepath",
	label="오디오 파일 업로드"
	)
	btn2 = gr.Button("번역")
	stt2 = gr.Textbox(label="원문", lines=5)
	tlt2 = gr.Textbox(label="번역", lines=5)
	out2 = gr.Audio(label="TTS", type="filepath", autoplay=True)

	btn2.click(
	translate_audio,
	inputs=[file2, src2, tgt2],
	outputs=[stt2, tlt2, out2]
	)

	# ③ 실시간 스트리밍 번역 (Beta) … 이전과 동일 …

	# ④ 4개 언어 동시 번역 … 이전과 동일 …

	# ===================== 실행 ==========================================
	if __name__ == "__main__":
	app.launch(server_name="0.0.0.0", server_port=7860, share=False, debug=True)