Spaces:

VIDraft
/

voice-trans

Running on Zero

App Files Files Community

voice-trans / app.py

openfree

Update app.py

effad1c verified 2 months ago

raw

history blame

11.7 kB

	"""
	SMARTok 핵심 데모
	──────────────────────────────────────────────
	✓ 탭 1 : 오디오(녹음·파일) 단건 번역 + TTS 재생
	✓ 탭 2 : PDF / 이미지 번역 (Tesseract 없으면 PDF만 안내)
	✓ 탭 3 : 실시간 1개 언어(선택형) 번역
	✓ 탭 4 : 실시간 4개 언어(영·중(간)·태·러) 동시 번역
	──────────────────────────────────────────────
	Python ≥3.10, Gradio 4.x, OpenAI Python SDK 필요
	"""

	import gradio as gr
	import openai, os, io, tempfile, mimetypes
	from dotenv import load_dotenv

	# ─────────────────── 0. 공통 초기화 ──────────────────────────
	load_dotenv()
	api_key = os.getenv("OPENAI_API_KEY")
	if not api_key:
	raise RuntimeError("OPENAI_API_KEY를 .env 파일에 설정하세요!")
	client = openai.OpenAI(api_key=api_key)

	LANGUAGES = [
	"Korean", "English", "Japanese", "Chinese",
	"Thai", "Russian", "Vietnamese",
	"Spanish", "French"
	]
	LANG_CODE = {
	"Korean":"ko","English":"en","Japanese":"ja","Chinese":"zh",
	"Thai":"th","Russian":"ru","Vietnamese":"vi",
	"Spanish":"es","French":"fr"
	}
	VOICE = {l: ("nova" if l in ["Korean","Japanese","Chinese"] else "alloy")
	for l in LANGUAGES}

	FOUR_LANGS = ["English", "Chinese", "Thai", "Russian"] # 실시간 동시 번역용
	STREAM_SEC = 4 # Whisper 호출 간격(초) – 3~4 초 정도 지연

	# ─────────────────── 1. 유틸 함수 ───────────────────────────
	def _safe_path(v):
	"""Gradio File/Audio 입력 → 실제 경로 추출"""
	if v is None:
	return None
	return v.get("name") if isinstance(v, dict) else v

	def _gpt_translate(text: str, src: str, tgt: str) -> str:
	"""GPT-3.5-turbo 번역 (설명 없이 결과만)"""
	rsp = client.chat.completions.create(
	model="gpt-3.5-turbo",
	messages=[
	{"role":"system",
	"content":f"You are a professional translator. Translate the following {src} text to {tgt}. "
	f"Only provide the translated text."},
	{"role":"user","content":text}
	],
	temperature=0.3,max_tokens=4096
	)
	return rsp.choices[0].message.content.strip()

	def _tts(text: str, lang: str) -> str:
	"""OpenAI TTS-1 ⇒ MP3 파일 경로 반환"""
	out = client.audio.speech.create(
	model="tts-1",
	voice=VOICE.get(lang,"alloy"),
	input=text[:4096]
	)
	tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
	tmp.write(out.content)
	tmp.close()
	return tmp.name

	# ─────────────────── 2. 단건 오디오 번역 ───────────────────────
	def translate_audio(audio_in, src, tgt):
	path = _safe_path(audio_in)
	if not path or not os.path.exists(path):
	return "⚠️ 음성 파일을 녹음-업로드하세요.", "", None

	with open(path,"rb") as f:
	stt = client.audio.transcriptions.create(
	model="whisper-1",
	file=f,
	language=LANG_CODE.get(src)
	)
	original = stt.text.strip()
	if not original:
	return "⚠️ 음성 인식 실패", "", None

	translated = _gpt_translate(original, src, tgt)
	tts_path = _tts(translated, tgt)
	return original, translated, tts_path

	# ─────────────────── 3. PDF / 이미지 번역 ─────────────────────
	def translate_document(file_in, src, tgt):
	path = _safe_path(file_in)
	if not path or not os.path.exists(path):
	return "⚠️ PDF(또는 이미지) 파일을 업로드하세요.", ""

	ext = os.path.splitext(path)[1].lower()
	mime = mimetypes.guess_type(path)[0] or ""
	text = ""

	try:
	if ext == ".pdf" or "pdf" in mime:
	import pdfplumber
	with pdfplumber.open(path) as pdf:
	pages = pdf.pages[:5] # 데모: 5쪽 제한
	text = "\n".join(p.extract_text() or "" for p in pages)
	else:
	# 이미지의 경우 Tesseract 필요
	try:
	from PIL import Image
	import pytesseract
	text = pytesseract.image_to_string(Image.open(path))
	except Exception:
	return "⚠️ 서버에 Tesseract OCR가 없어서 이미지 OCR은 지원되지 않습니다. PDF만 사용하세요.", ""
	except Exception as e:
	return f"❌ 텍스트 추출 실패: {e}", ""

	text = text.strip()
	if not text:
	return "⚠️ 텍스트가 추출되지 않았습니다.", ""

	translated = _gpt_translate(text, src, tgt)
	return text, translated

	# ─────────────────── 4. 실시간 1개 언어 번역 ──────────────────
	def stream_single(mic_stream, src, tgt):
	buf, header = io.BytesIO(), None
	o_acc, t_acc = "", ""
	while True:
	chunk = mic_stream.recv()
	if chunk is None:
	break
	if header is None:
	header = chunk[:44]
	buf.write(chunk)
	if buf.getbuffer().nbytes > 160002STREAM_SEC:
	wav = header + buf.getvalue()
	with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
	tmp.write(wav); tmp.close()
	o, t, _ = translate_audio(tmp.name, src, tgt)
	o_acc += " " + o
	t_acc += " " + t
	yield o_acc.strip(), t_acc.strip()
	buf = io.BytesIO()

	if buf.getbuffer().nbytes:
	wav = header + buf.getvalue()
	with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
	tmp.write(wav); tmp.close()
	o, t, _ = translate_audio(tmp.name, src, tgt)
	yield (o_acc+" "+o).strip(), (t_acc+" "+t).strip()

	# ─────────────────── 5. 실시간 4개 언어 번역 ──────────────────
	def stream_multi(mic_stream, src):
	buf, header = io.BytesIO(), None
	acc = {lang:"" for lang in ["orig"]+FOUR_LANGS}

	while True:
	chunk = mic_stream.recv()
	if chunk is None:
	break
	if header is None:
	header = chunk[:44]
	buf.write(chunk)
	if buf.getbuffer().nbytes > 160002STREAM_SEC:
	wav = header + buf.getvalue()
	with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
	tmp.write(wav); tmp.close()
	with open(tmp.name,"rb") as f:
	stt = client.audio.transcriptions.create(
	model="whisper-1", file=f,
	language=LANG_CODE.get(src)
	)
	orig = stt.text.strip()
	if orig:
	acc["orig"] += " " + orig
	for lang in FOUR_LANGS:
	acc[lang] += " " + _gpt_translate(orig, src, lang)
	yield (acc["orig"].strip(),
	acc["English"].strip(),
	acc["Chinese"].strip(),
	acc["Thai"].strip(),
	acc["Russian"].strip())
	buf = io.BytesIO()

	if buf.getbuffer().nbytes:
	wav = header + buf.getvalue()
	with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
	tmp.write(wav); tmp.close()
	with open(tmp.name,"rb") as f:
	stt = client.audio.transcriptions.create(
	model="whisper-1", file=f,
	language=LANG_CODE.get(src)
	)
	orig = stt.text.strip()
	if orig:
	acc["orig"] += " " + orig
	for lang in FOUR_LANGS:
	acc[lang] += " " + _gpt_translate(orig, src, lang)
	yield (acc["orig"].strip(),
	acc["English"].strip(),
	acc["Chinese"].strip(),
	acc["Thai"].strip(),
	acc["Russian"].strip())

	# ─────────────────── 6. Gradio UI ────────────────────────────
	with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
	with gr.Tabs():
	# 탭 1 ─ 오디오 번역
	with gr.TabItem("🎙️ 오디오 번역"):
	src1 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
	tgt1 = gr.Dropdown(LANGUAGES,value="English",label="출력")
	aud1 = gr.Audio(sources=["microphone","upload"],
	type="filepath",
	label="녹음 또는 오디오 파일 업로드")
	btn1 = gr.Button("번역")
	stt1 = gr.Textbox(label="원문", lines=5)
	tlt1 = gr.Textbox(label="번역", lines=5)
	out1 = gr.Audio(label="TTS",type="filepath",autoplay=True)
	btn1.click(translate_audio,[aud1,src1,tgt1],[stt1,tlt1,out1])

	# 탭 2 ─ 문서/이미지 번역
	with gr.TabItem("📄 문서/이미지 번역"):
	src2 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
	tgt2 = gr.Dropdown(LANGUAGES,value="English",label="출력")
	file2= gr.File(label="PDF 또는 이미지 업로드",
	file_types=[".pdf",".png",".jpg",".jpeg",".bmp",".tiff",".gif"])
	btn2 = gr.Button("번역")
	org2 = gr.Textbox(label="추출 원문",lines=15)
	trs2 = gr.Textbox(label="번역 결과",lines=15)
	btn2.click(translate_document,[file2,src2,tgt2],[org2,trs2])

	# 탭 3 ─ 실시간 1언어 번역
	with gr.TabItem("⏱️ 실시간 1언어"):
	src3 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
	tgt3 = gr.Dropdown(LANGUAGES,value="English",label="출력")
	mic3 = gr.Audio(sources=["microphone"],
	streaming=True,
	label="실시간 마이크")
	stt3 = gr.Textbox(label="원문(실시간)",lines=8)
	tlt3 = gr.Textbox(label="번역(실시간)",lines=8)
	mic3.stream(stream_single,inputs=[src3,tgt3],outputs=[stt3,tlt3])

	# 탭 4 ─ 실시간 4개 언어 번역
	with gr.TabItem("🌏 실시간 4개 언어"):
	gr.Markdown("마이크 입력을 3-4 초 간격으로 English / Chinese(简体) / Thai / Russian 4개 언어로 동시 번역합니다.")
	src4 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
	mic4 = gr.Audio(sources=["microphone"],
	streaming=True,
	label="실시간 마이크")
	o4 = gr.Textbox(label="원문",lines=8)
	e4 = gr.Textbox(label="English",lines=8)
	z4 = gr.Textbox(label="Chinese(简体)",lines=8)
	t4 = gr.Textbox(label="Thai",lines=8)
	r4 = gr.Textbox(label="Russian",lines=8)
	mic4.stream(stream_multi,inputs=[src4],
	outputs=[o4,e4,z4,t4,r4])

	# ─────────────────── 7. 실행 ────────────────────────────────
	if __name__ == "__main__":
	app.launch(server_name="0.0.0.0",
	server_port=7860,
	share=False,
	debug=True)