Spaces:

VIDraft
/

voice-trans

Running on Zero

App Files Files Community

openfree commited on Jun 9

Commit

392a5eb

verified ·

1 Parent(s): fd022eb

Update app.py

Browse files

Files changed (1) hide show

app.py +153 -159

app.py CHANGED Viewed

@@ -2,69 +2,62 @@ import gradio as gr
 import openai, os, io, tempfile, mimetypes
 from dotenv import load_dotenv
-# ============ 환경 변수 & OpenAI 초기화 ==============================
 load_dotenv()
 api_key = os.getenv("OPENAI_API_KEY")
 if not api_key:
     raise RuntimeError("OPENAI_API_KEY를 .env 파일에 설정하세요!")
 client = openai.OpenAI(api_key=api_key)
-# ============ 언어 매핑 ==============================================
 LANGUAGES = [
     "Korean", "English", "Japanese", "Chinese",
     "Thai", "Russian", "Vietnamese",
     "Spanish", "French"
 ]
 LANG_CODE = {
-    "Korean": "ko", "English": "en", "Japanese": "ja", "Chinese": "zh",
-    "Thai": "th", "Russian": "ru", "Vietnamese": "vi",
-    "Spanish": "es", "French": "fr"
 }
-VOICE = {l: ("nova" if l in ["Korean", "Japanese", "Chinese"] else "alloy")
          for l in LANGUAGES}
-# ============ 공통 유틸 함수 =========================================
-def _safe_path(x):
-    """Gradio File/Audio 컴포넌트 값에서 실제 파일 경로 추출"""
-    if x is None:
-        return None
-    if isinstance(x, dict):
-        return x.get("name")  # 4.x 형식
-    return x
-def _gpt_translate(text: str, src: str, tgt: str) -> str:
-    """GPT-3.5-Turbo 번역"""
     rsp = client.chat.completions.create(
         model="gpt-3.5-turbo",
         messages=[
-            {"role": "system",
-             "content": f"You are a professional translator. Translate the following {src} text to {tgt}. "
                         f"Only provide the translated text."},
-            {"role": "user", "content": text}
         ],
-        temperature=0.3, max_tokens=4096
     )
     return rsp.choices[0].message.content.strip()
-def _tts(text: str, lang: str) -> str:
-    """OpenAI TTS-1 → mp3 파일 경로"""
     out = client.audio.speech.create(
         model="tts-1",
-        voice=VOICE.get(lang, "alloy"),
         input=text[:4096]
     )
     tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
-    tmp.write(out.content)
-    tmp.close()
     return tmp.name
-# ============ ① 음성 파일/마이크 번역 ================================
 def translate_audio(audio_in, src, tgt):
     path = _safe_path(audio_in)
     if not path or not os.path.exists(path):
-        return "⚠️ 음성 파일을 녹음하거나 업로드하세요.", "", None
-    with open(path, "rb") as f:
         stt = client.audio.transcriptions.create(
             model="whisper-1",
             file=f,
@@ -75,18 +68,18 @@ def translate_audio(audio_in, src, tgt):
         return "⚠️ 음성 인식 실패", "", None
     translated = _gpt_translate(original, src, tgt)
-    tts_path = _tts(translated, tgt)
     return original, translated, tts_path
-# ============ ② PDF / 이미지 번역 ===================================
 def translate_document(file_in, src, tgt):
     path = _safe_path(file_in)
     if not path or not os.path.exists(path):
         return "⚠️ PDF 또는 이미지를 업로드하세요.", ""
-    text = ""
     ext = os.path.splitext(path)[1].lower()
     mime = mimetypes.guess_type(path)[0] or ""
     try:
         if ext == ".pdf" or "pdf" in mime:
@@ -94,14 +87,14 @@ def translate_document(file_in, src, tgt):
             with pdfplumber.open(path) as pdf:
                 pages = pdf.pages[:5]  # 데모: 최대 5쪽
                 text = "\n".join(p.extract_text() or "" for p in pages)
-        elif ext in [".png", ".jpg", ".jpeg", ".bmp", ".tiff", ".gif"] or "image" in mime:
             from PIL import Image
             import pytesseract
             text = pytesseract.image_to_string(Image.open(path))
         else:
             return "⚠️ 지원하지 않는 파일 형식입니다.", ""
     except Exception as e:
-        return f"❌ 텍스트 추출 실패: {type(e).__name__}: {e}", ""
     text = text.strip()
     if not text:
@@ -110,145 +103,146 @@ def translate_document(file_in, src, tgt):
     translated = _gpt_translate(text, src, tgt)
     return text, translated
-# ============ ③ 실시간 스트리밍 전사/번역 ===========================
-STREAM_CHUNK_SEC = 4
-def stream_generator(mic_stream, src, tgt="English"):
-    buffer = io.BytesIO()
-    wav_header = None
-    orig_acc, trans_acc = "", ""
     while True:
         chunk = mic_stream.recv()
-        if chunk is None:
-            break
-        if not wav_header:
-            wav_header = chunk[:44]  # WAV 헤더
-        buffer.write(chunk)
-        if buffer.getbuffer().nbytes > 16000 * 2 * STREAM_CHUNK_SEC:
-            wav_bytes = wav_header + buffer.getvalue()
-            with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
-                tmp.write(wav_bytes)
-                tmp.close()
                 o, t, _ = translate_audio(tmp.name, src, tgt)
-            orig_acc += " " + o
-            trans_acc += " " + t
-            yield orig_acc.strip(), trans_acc.strip()
-            buffer = io.BytesIO()
-    if buffer.getbuffer().nbytes:
-        wav_bytes = wav_header + buffer.getvalue()
-        with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
-            tmp.write(wav_bytes)
-            tmp.close()
             o, t, _ = translate_audio(tmp.name, src, tgt)
-        yield (orig_acc + " " + o).strip(), (trans_acc + " " + t).strip()
-# ============ ④ 4개국 동시 번역 ====================================
-FOUR_LANGS = ["English", "Chinese", "Thai", "Russian"]
-def translate_audio_four(audio_in, src):
-    path = _safe_path(audio_in)
-    if not path or not os.path.exists(path):
-        return ["⚠️ 음성 파일을 녹음하거나 업로드하세요."] + [""] * 4
-    with open(path, "rb") as f:
-        stt = client.audio.transcriptions.create(
-            model="whisper-1",
-            file=f,
-            language=LANG_CODE.get(src)
-        )
-    original = stt.text.strip()
-    if not original:
-        return ["⚠️ 음성 인식 실패"] + [""] * 4
-    outs = [original]
-    for lang in FOUR_LANGS:
-        outs.append(_gpt_translate(original, src, lang))
-    return outs
-# ============ Gradio UI =============================================
 with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
     with gr.Tabs():
-        # 1) 마이크/파일(오디오) 번역
-        with gr.TabItem("🎙️ 마이크/오디오 번역"):
-            src1 = gr.Dropdown(LANGUAGES, value="Korean", label="입력")
-            tgt1 = gr.Dropdown(LANGUAGES, value="English", label="출력")
-            mic1 = gr.Audio(
-                sources=["microphone", "upload"],
-                type="filepath",
-                label="🎤 녹음 또는 오디오 파일 업로드"
-            )
             btn1 = gr.Button("번역")
             stt1 = gr.Textbox(label="원문", lines=5)
             tlt1 = gr.Textbox(label="번역", lines=5)
-            out1 = gr.Audio(label="TTS", type="filepath", autoplay=True)
-            btn1.click(
-                translate_audio,
-                inputs=[mic1, src1, tgt1],
-                outputs=[stt1, tlt1, out1]
-            )
         # 2) PDF / 이미지 번역
         with gr.TabItem("📄 문서/이미지 번역"):
-            src2 = gr.Dropdown(LANGUAGES, value="Korean", label="입력")
-            tgt2 = gr.Dropdown(LANGUAGES, value="English", label="출력")
-            file2 = gr.File(
-                label="PDF 또는 이미지 업로드",
-                file_types=[".pdf", ".png", ".jpg", ".jpeg", ".bmp", ".tiff", ".gif"]
-            )
             btn2 = gr.Button("번역")
-            original_doc = gr.Textbox(label="추출된 원문", lines=15)
-            translated_doc = gr.Textbox(label="번역 결과", lines=15)
-            btn2.click(
-                translate_document,
-                inputs=[file2, src2, tgt2],
-                outputs=[original_doc, translated_doc]
-            )
-        # 3) 실시간 번역(Beta)
-        with gr.TabItem("⏱️ 실시간 번역 (Beta)"):
-            src3 = gr.Dropdown(LANGUAGES, value="Korean", label="입력")
-            tgt3 = gr.Dropdown(LANGUAGES, value="English", label="출력")
-            mic3 = gr.Audio(
-                sources=["microphone"],
-                streaming=True,
-                label="🎤 실시간 마이크 입력"
-            )
-            stt3 = gr.Textbox(label="원문(실시간)", lines=8)
-            tlt3 = gr.Textbox(label="번역(실시간)", lines=8)
-            def gen(audio, src_lang, tgt_lang):
-                yield from stream_generator(audio, src_lang, tgt_lang)
-            mic3.stream(gen, inputs=[src3, tgt3], outputs=[stt3, tlt3])
-        # 4) 4개 언어 동시 번역
-        with gr.TabItem("🌏 4개 언어 동시"):
-            src4 = gr.Dropdown(LANGUAGES, value="Korean", label="입력 언어")
-            aud4 = gr.Audio(
-                sources=["microphone", "upload"],
-                type="filepath",
-                label="🎤 녹음 또는 오디오 파일 업로드"
-            )
-            btn4 = gr.Button("번역")
-            with gr.Row():
-                org4 = gr.Textbox(label="원문", lines=4)
-                en4  = gr.Textbox(label="English", lines=4)
-                zh4  = gr.Textbox(label="Chinese (简体)", lines=4)
-                th4  = gr.Textbox(label="Thai", lines=4)
-                ru4  = gr.Textbox(label="Russian", lines=4)
-            btn4.click(
-                translate_audio_four,
-                inputs=[aud4, src4],
-                outputs=[org4, en4, zh4, th4, ru4]
-            )
-# ============ 실행 ===================================================
 if __name__ == "__main__":
-    app.launch(server_name="0.0.0.0", server_port=7860, share=False, debug=True)

 import openai, os, io, tempfile, mimetypes
 from dotenv import load_dotenv
+# ────────────────────────── 공통 초기화 ──────────────────────────
 load_dotenv()
 api_key = os.getenv("OPENAI_API_KEY")
 if not api_key:
     raise RuntimeError("OPENAI_API_KEY를 .env 파일에 설정하세요!")
 client = openai.OpenAI(api_key=api_key)
 LANGUAGES = [
     "Korean", "English", "Japanese", "Chinese",
     "Thai", "Russian", "Vietnamese",
     "Spanish", "French"
 ]
 LANG_CODE = {
+    "Korean":"ko","English":"en","Japanese":"ja","Chinese":"zh",
+    "Thai":"th","Russian":"ru","Vietnamese":"vi",
+    "Spanish":"es","French":"fr"
 }
+FOUR_LANGS = ["English", "Chinese", "Thai", "Russian"]  # 실시간 동시 번역 언어
+VOICE = {l:("nova" if l in ["Korean","Japanese","Chinese"] else "alloy")
          for l in LANGUAGES}
+# ────────────────────────── 유틸 함수 ───────────────────────────
+def _safe_path(v):
+    if v is None: return None
+    return v.get("name") if isinstance(v, dict) else v
+def _gpt_translate(text, src, tgt):
     rsp = client.chat.completions.create(
         model="gpt-3.5-turbo",
         messages=[
+            {"role":"system",
+             "content":f"You are a professional translator. Translate the following {src} text to {tgt}. "
                         f"Only provide the translated text."},
+            {"role":"user","content":text}
         ],
+        temperature=0.3, max_tokens=2048
     )
     return rsp.choices[0].message.content.strip()
+def _tts(text, lang):
     out = client.audio.speech.create(
         model="tts-1",
+        voice=VOICE.get(lang,"alloy"),
         input=text[:4096]
     )
     tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
+    tmp.write(out.content); tmp.close()
     return tmp.name
+# ────────────────── ① 음성(Mic·File) 단건 번역 ──────────────────
 def translate_audio(audio_in, src, tgt):
     path = _safe_path(audio_in)
     if not path or not os.path.exists(path):
+        return "⚠️ 음성 파일을 녹음/업로드하세요.", "", None
+    with open(path,"rb") as f:
         stt = client.audio.transcriptions.create(
             model="whisper-1",
             file=f,
         return "⚠️ 음성 인식 실패", "", None
     translated = _gpt_translate(original, src, tgt)
+    tts_path   = _tts(translated, tgt)
     return original, translated, tts_path
+# ────────────────── ② PDF / 이미지 번역 ─────────────────────────
 def translate_document(file_in, src, tgt):
     path = _safe_path(file_in)
     if not path or not os.path.exists(path):
         return "⚠️ PDF 또는 이미지를 업로드하세요.", ""
     ext = os.path.splitext(path)[1].lower()
     mime = mimetypes.guess_type(path)[0] or ""
+    text = ""
     try:
         if ext == ".pdf" or "pdf" in mime:
             with pdfplumber.open(path) as pdf:
                 pages = pdf.pages[:5]  # 데모: 최대 5쪽
                 text = "\n".join(p.extract_text() or "" for p in pages)
+        elif ext in [".png",".jpg",".jpeg",".bmp",".tiff",".gif"] or "image" in mime:
             from PIL import Image
             import pytesseract
             text = pytesseract.image_to_string(Image.open(path))
         else:
             return "⚠️ 지원하지 않는 파일 형식입니다.", ""
     except Exception as e:
+        return f"❌ 텍스트 추출 실패: {e}", ""
     text = text.strip()
     if not text:
     translated = _gpt_translate(text, src, tgt)
     return text, translated
+# ──────────────── ③ 실시간 1개 언어 번역 (옵션) ─────────────────
+STREAM_SEC = 4  # Whisper 호출 주기
+def stream_single(mic_stream, src, tgt):
+    buf, header = io.BytesIO(), None
+    o_acc, t_acc = "", ""
     while True:
         chunk = mic_stream.recv()
+        if chunk is None: break
+        if header is None: header = chunk[:44]
+        buf.write(chunk)
+        if buf.getbuffer().nbytes > 16000*2*STREAM_SEC:
+            wav = header + buf.getvalue()
+            with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
+                tmp.write(wav); tmp.close()
                 o, t, _ = translate_audio(tmp.name, src, tgt)
+            o_acc += " " + o; t_acc += " " + t
+            yield o_acc.strip(), t_acc.strip()
+            buf = io.BytesIO()
+    if buf.getbuffer().nbytes:
+        wav = header + buf.getvalue()
+        with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
+            tmp.write(wav); tmp.close()
             o, t, _ = translate_audio(tmp.name, src, tgt)
+        yield (o_acc+" "+o).strip(), (t_acc+" "+t).strip()
+# ─────────────── ④ 실시간 4개 언어 동시 번역 ────────────────────
+def stream_multi(mic_stream, src):
+    buf, header = io.BytesIO(), None
+    acc = {lang: "" for lang in ["original"] + FOUR_LANGS}
+    while True:
+        chunk = mic_stream.recv()
+        if chunk is None: break
+        if header is None: header = chunk[:44]
+        buf.write(chunk)
+        if buf.getbuffer().nbytes > 16000*2*STREAM_SEC:
+            wav = header + buf.getvalue()
+            with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
+                tmp.write(wav); tmp.close()
+                with open(tmp.name,"rb") as f:
+                    stt = client.audio.transcriptions.create(
+                        model="whisper-1", file=f,
+                        language=LANG_CODE.get(src)
+                    )
+            orig = stt.text.strip()
+            if orig:
+                acc["original"] += " " + orig
+                for lang in FOUR_LANGS:
+                    acc[lang] += " " + _gpt_translate(orig, src, lang)
+            yield (acc["original"].strip(),
+                   acc["English"].strip(),
+                   acc["Chinese"].strip(),
+                   acc["Thai"].strip(),
+                   acc["Russian"].strip())
+            buf = io.BytesIO()
+    # 남은 버퍼
+    if buf.getbuffer().nbytes:
+        wav = header + buf.getvalue()
+        with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
+            tmp.write(wav); tmp.close()
+            with open(tmp.name,"rb") as f:
+                stt = client.audio.transcriptions.create(
+                    model="whisper-1", file=f,
+                    language=LANG_CODE.get(src)
+                )
+        orig = stt.text.strip()
+        if orig:
+            acc["original"] += " " + orig
+            for lang in FOUR_LANGS:
+                acc[lang] += " " + _gpt_translate(orig, src, lang)
+    yield (acc["original"].strip(),
+           acc["English"].strip(),
+           acc["Chinese"].strip(),
+           acc["Thai"].strip(),
+           acc["Russian"].strip())
+# ────────────────────────── Gradio UI ──────────────────────────────
 with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
     with gr.Tabs():
+        # 1) 오디오(녹음·업로드) 번역
+        with gr.TabItem("🎙️ 오디오 번역"):
+            src1 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
+            tgt1 = gr.Dropdown(LANGUAGES,value="English",label="출력")
+            aud1 = gr.Audio(sources=["microphone","upload"],
+                            type="filepath",
+                            label="녹음 또는 오디오 파일 업로드")
             btn1 = gr.Button("번역")
             stt1 = gr.Textbox(label="원문", lines=5)
             tlt1 = gr.Textbox(label="번역", lines=5)
+            out1 = gr.Audio(label="TTS",type="filepath",autoplay=True)
+            btn1.click(translate_audio, [aud1,src1,tgt1],[stt1,tlt1,out1])
         # 2) PDF / 이미지 번역
         with gr.TabItem("📄 문서/이미지 번역"):
+            src2 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
+            tgt2 = gr.Dropdown(LANGUAGES,value="English",label="출력")
+            file2= gr.File(label="PDF 또는 이미지 업로드",
+                           file_types=[".pdf",".png",".jpg",".jpeg",
+                                       ".bmp",".tiff",".gif"])
             btn2 = gr.Button("번역")
+            org2 = gr.Textbox(label="추출 원문",lines=15)
+            trs2 = gr.Textbox(label="번역 결과",lines=15)
+            btn2.click(translate_document,[file2,src2,tgt2],[org2,trs2])
+        # 3) 실시간 1개 언어 번역(선택)
+        with gr.TabItem("⏱️ 실시간 1언어"):
+            src3 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
+            tgt3 = gr.Dropdown(LANGUAGES,value="English",label="출력")
+            mic3 = gr.Audio(sources=["microphone"],
+                            streaming=True,label="실시간 마이크")
+            stt3 = gr.Textbox(label="원문(실시간)",lines=8)
+            tlt3 = gr.Textbox(label="번역(실시간)",lines=8)
+            mic3.stream(lambda a,s,t: stream_single(a,s,t),
+                        inputs=[src3,tgt3],
+                        outputs=[stt3,tlt3])
+        # 4) **실시간 4개 언어 동시 번역**  ← 핵심 데모
+        with gr.TabItem("🌏 실시간 4개 언어"):
+            gr.Markdown("마이크 입력을 **English / Chinese(简体) / Thai / Russian** "
+                        "4개 언어로 실시간(3-4 초 지연) 동시 번역합니다.")
+            src4 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
+            mic4 = gr.Audio(sources=["microphone"],
+                            streaming=True,label="실시간 마이크")
+            o4  = gr.Textbox(label="원문",  lines=8)
+            e4  = gr.Textbox(label="English", lines=8)
+            z4  = gr.Textbox(label="Chinese(简体)", lines=8)
+            t4  = gr.Textbox(label="Thai", lines=8)
+            r4  = gr.Textbox(label="Russian", lines=8)
+            # Audio.stream → 5개 출력
+            mic4.stream(lambda a,s: stream_multi(a,s),
+                        inputs=[src4],
+                        outputs=[o4,e4,z4,t4,r4])
+# ─────────────────────────── 실행 ────────────────────────────────
 if __name__ == "__main__":
+    app.launch(server_name="0.0.0.0",
+               server_port=7860,
+               share=False,
+               debug=True)