Spaces:

VIDraft
/

voice-trans

Running on Zero

App Files Files Community

voice-trans / app.py

openfree

Update app.py

6b6f26e verified 2 months ago

raw

history blame

9.52 kB

	"""
	SMARTok 실시간 다국어 데모 (완전 수정본)
	────────────────────────────────────────────
	• 탭1 🎙️ 오디오 번역 : 마이크/파일 → 번역 + TTS
	• 탭2 📄 문서·이미지 번역 : PDF / 이미지(OCR) → 번역
	• 탭3 ⏱️ 실시간 1언어 번역 : 마이크 → 1개 언어 실시간 자막
	• 탭4 🌏 실시간 4개 언어 번역 : 마이크 → 영·중·태·러 동시 자막
	────────────────────────────────────────────
	필수 apt : tesseract-ocr libtesseract-dev ocrmypdf ffmpeg
	필수 pip : gradio>=5.33 openai python-dotenv pdfplumber ocrmypdf pillow
	"""

	import gradio as gr
	import openai, os, io, tempfile, mimetypes, json, uuid
	from dotenv import load_dotenv
	import pdfplumber, ocrmypdf
	from PIL import Image

	# ────────────── 0. 공통 초기화 ────────────────────────────────────
	load_dotenv()
	api_key = os.getenv("OPENAI_API_KEY")
	if not api_key:
	raise RuntimeError("OPENAI_API_KEY를 .env 파일에 설정하세요!")
	client = openai.OpenAI(api_key=api_key)

	LANGUAGES = [
	"Korean", "English", "Japanese", "Chinese",
	"Thai", "Russian", "Vietnamese",
	"Spanish", "French"
	]
	LANG_CODE = {
	"Korean":"ko","English":"en","Japanese":"ja","Chinese":"zh",
	"Thai":"th","Russian":"ru","Vietnamese":"vi",
	"Spanish":"es","French":"fr"
	}
	VOICE = {l: ("nova" if l in ["Korean","Japanese","Chinese"] else "alloy")
	for l in LANGUAGES}
	FOUR = ["English","Chinese","Thai","Russian"]
	STREAM_SEC = 4 # Whisper 호출 주기

	# ────────────── 1. 유틸 함수 ─────────────────────────────────────
	def _safe(v):
	if v is None:
	return None
	return v["name"] if isinstance(v, dict) else v

	def _gpt(text, src, tgt):
	rsp = client.chat.completions.create(
	model="gpt-3.5-turbo",
	messages=[
	{"role":"system",
	"content":f"Translate the following {src} text to {tgt}. "
	"Return only the translation."},
	{"role":"user","content":text}
	],
	temperature=0.3,max_tokens=4096
	)
	return rsp.choices[0].message.content.strip()

	def _tts(text, lang):
	rsp = client.audio.speech.create(
	model="tts-1",
	voice=VOICE.get(lang,"alloy"),
	input=text[:4096]
	)
	tmp = tempfile.NamedTemporaryFile(delete=False,suffix=".mp3")
	tmp.write(rsp.content); tmp.close()
	return tmp.name

	# ────────────── 2. 오디오(단건) 번역 ─────────────────────────────
	def translate_audio(audio_in, src, tgt):
	p = _safe(audio_in)
	if not p or not os.path.exists(p):
	return "⚠️ 음성 파일 필요", "", None
	with open(p,"rb") as f:
	stt = client.audio.transcriptions.create(
	model="whisper-1", file=f, language=LANG_CODE.get(src))
	orig = stt.text.strip()
	if not orig:
	return "⚠️ 음성 인식 실패", "", None
	trans = _gpt(orig, src, tgt)
	return orig, trans, _tts(trans, tgt)

	# ────────────── 3. 문서 / 이미지 번역 ────────────────────────────
	def translate_doc(file_in, src, tgt):
	p = _safe(file_in)
	if not p or not os.path.exists(p):
	return "⚠️ PDF/이미지 업로드", ""
	ext = os.path.splitext(p)[1].lower()
	mime = mimetypes.guess_type(p)[0] or ""
	try:
	# PDF 그대로
	if ext==".pdf" or "pdf" in mime:
	with pdfplumber.open(p) as pdf:
	txt = "\n".join(pg.extract_text() or "" for pg in pdf.pages[:5])
	# 이미지 → OCR PDF
	else:
	img_pdf = tempfile.NamedTemporaryFile(delete=False,suffix=".pdf").name
	Image.open(p).save(img_pdf,"PDF")
	ocr_pdf = tempfile.NamedTemporaryFile(delete=False,suffix=".pdf").name
	ocrmypdf.ocr(img_pdf, ocr_pdf,
	lang=LANG_CODE.get(src,"eng"),
	deskew=True,optimize=0,progress_bar=False)
	with pdfplumber.open(ocr_pdf) as pdf:
	txt = "\n".join(pg.extract_text() or "" for pg in pdf.pages)
	except Exception as e:
	return f"❌ 추출 오류: {e}", ""
	txt = txt.strip()
	if not txt:
	return "⚠️ 텍스트 추출 실패", ""
	return txt, _gpt(txt, src, tgt)

	# ────────────── 4. 실시간 1언어 ──────────────────────────────────
	def stream_single(audio_path, src, tgt, state):
	state = state or {"orig":"", "trans":""}
	if not audio_path or not os.path.exists(audio_path):
	return state["orig"], state["trans"], state
	with open(audio_path,"rb") as f:
	stt = client.audio.transcriptions.create(
	model="whisper-1", file=f, language=LANG_CODE.get(src))
	full = stt.text.strip()
	new = full[len(state["orig"]):]
	if new:
	state["orig"] = full
	state["trans"] += " " + _gpt(new, src, tgt)
	return state["orig"], state["trans"].strip(), state

	# ────────────── 5. 실시간 4언어 ──────────────────────────────────
	def stream_multi(audio_path, src, state):
	state = state or {k:"" for k in ["orig"]+FOUR}
	if not audio_path or not os.path.exists(audio_path):
	return state["orig"],state["English"],state["Chinese"],state["Thai"],state["Russian"],state
	with open(audio_path,"rb") as f:
	stt = client.audio.transcriptions.create(
	model="whisper-1", file=f, language=LANG_CODE.get(src))
	full = stt.text.strip()
	new = full[len(state["orig"]):]
	if new:
	state["orig"] = full
	for lang in FOUR:
	state[lang] += " " + _gpt(new, src, lang)
	return (state["orig"].strip(),
	state["English"].strip(),
	state["Chinese"].strip(),
	state["Thai"].strip(),
	state["Russian"].strip(),
	state)

	# ────────────── 6. Gradio UI ───────────────────────────────────
	with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
	with gr.Tabs():
	# 탭 1
	with gr.TabItem("🎙️ 오디오 번역"):
	src1 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
	tgt1 = gr.Dropdown(LANGUAGES,value="English",label="출력 언어")
	aud1 = gr.Audio(sources=["microphone","upload"],type="filepath")
	res1 = gr.Button("번역")
	o1 = gr.Textbox(label="원문",lines=5)
	t1 = gr.Textbox(label="번역",lines=5)
	a1 = gr.Audio(label="TTS",type="filepath",autoplay=True)
	res1.click(translate_audio,[aud1,src1,tgt1],[o1,t1,a1])

	# 탭 2
	with gr.TabItem("📄 문서·이미지 번역"):
	src2 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
	tgt2 = gr.Dropdown(LANGUAGES,value="English",label="출력 언어")
	file2= gr.File(label="PDF/이미지 업로드",
	file_types=[".pdf",".png",".jpg",".jpeg",
	".bmp",".tiff",".gif"])
	doc2 = gr.Button("번역")
	o2 = gr.Textbox(label="추출 원문",lines=15)
	t2 = gr.Textbox(label="번역 결과",lines=15)
	doc2.click(translate_doc,[file2,src2,tgt2],[o2,t2])

	# 탭 3
	with gr.TabItem("⏱️ 실시간 1언어"):
	src3 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
	tgt3 = gr.Dropdown(LANGUAGES,value="English",label="출력 언어")
	mic3 = gr.Audio(sources=["microphone"],streaming=True)
	o3 = gr.Textbox(label="원문(실시간)",lines=8)
	t3 = gr.Textbox(label="번역(실시간)",lines=8)
	st3 = gr.State()
	mic3.stream(stream_single,
	inputs=[src3,tgt3,st3],
	outputs=[o3,t3,st3])

	# 탭 4
	with gr.TabItem("🌏 실시간 4개 언어"):
	src4 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
	mic4 = gr.Audio(sources=["microphone"],streaming=True)
	o4 = gr.Textbox(label="원문",lines=8)
	e4 = gr.Textbox(label="English",lines=8)
	c4 = gr.Textbox(label="Chinese(简体)",lines=8)
	th4 = gr.Textbox(label="Thai",lines=8)
	r4 = gr.Textbox(label="Russian",lines=8)
	st4 = gr.State()
	mic4.stream(stream_multi,
	inputs=[src4,st4],
	outputs=[o4,e4,c4,th4,r4,st4])

	# ────────────── 7. 실행 ───────────────────────────────────────
	if __name__ == "__main__":
	app.launch(server_name="0.0.0.0",server_port=7860,share=False,debug=True)