Spaces:

VIDraft
/

voice-trans

Running on Zero

App Files Files Community

openfree commited on Jun 9

Commit

6b6f26e

verified ·

1 Parent(s): 0b2bf70

Update app.py

Browse files

Files changed (1) hide show

app.py +146 -208

app.py CHANGED Viewed

@@ -1,19 +1,22 @@
 """
-SMARTok 핵심 데모
-──────────────────────────────────────────────
-✓ 탭 1 : 오디오(녹음·파일) 단건 번역 + TTS 재생
-✓ 탭 2 : PDF / 이미지 번역 (Tesseract 없으면 PDF만 안내)
-✓ 탭 3 : 실시간 1개 언어(선택형) 번역
-✓ 탭 4 : 실시간 4개 언어(영·중(간)·태·러) 동시 번역
-──────────────────────────────────────────────
-Python ≥3.10, Gradio 4.x, OpenAI Python SDK 필요
 """
 import gradio as gr
-import openai, os, io, tempfile, mimetypes
 from dotenv import load_dotenv
-# ─────────────────── 0. 공통 초기화 ──────────────────────────
 load_dotenv()
 api_key = os.getenv("OPENAI_API_KEY")
 if not api_key:
@@ -32,234 +35,169 @@ LANG_CODE = {
 }
 VOICE = {l: ("nova" if l in ["Korean","Japanese","Chinese"] else "alloy")
          for l in LANGUAGES}
-FOUR_LANGS = ["English", "Chinese", "Thai", "Russian"]  # 실시간 동시 번역용
-STREAM_SEC = 4  # Whisper 호출 간격(초) – 3~4 초 정도 지연
-# ─────────────────── 1. 유틸 함수 ───────────────────────────
-def _safe_path(v):
-    """Gradio File/Audio 입력 → 실제 경로 추출"""
     if v is None:
         return None
-    return v.get("name") if isinstance(v, dict) else v
-def _gpt_translate(text: str, src: str, tgt: str) -> str:
-    """GPT-3.5-turbo 번역 (설명 없이 결과만)"""
     rsp = client.chat.completions.create(
         model="gpt-3.5-turbo",
         messages=[
             {"role":"system",
-             "content":f"You are a professional translator. Translate the following {src} text to {tgt}. "
-                        f"Only provide the translated text."},
             {"role":"user","content":text}
         ],
         temperature=0.3,max_tokens=4096
     )
     return rsp.choices[0].message.content.strip()
-def _tts(text: str, lang: str) -> str:
-    """OpenAI TTS-1 ⇒ MP3 파일 경로 반환"""
-    out = client.audio.speech.create(
         model="tts-1",
         voice=VOICE.get(lang,"alloy"),
         input=text[:4096]
     )
-    tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
-    tmp.write(out.content)
-    tmp.close()
     return tmp.name
-# ─────────────────── 2. 단건 오디오 번역 ───────────────────────
 def translate_audio(audio_in, src, tgt):
-    path = _safe_path(audio_in)
-    if not path or not os.path.exists(path):
-        return "⚠️ 음성 파일을 녹음-업로드하세요.", "", None
-    with open(path,"rb") as f:
         stt = client.audio.transcriptions.create(
-            model="whisper-1",
-            file=f,
-            language=LANG_CODE.get(src)
-        )
-    original = stt.text.strip()
-    if not original:
         return "⚠️ 음성 인식 실패", "", None
-    translated = _gpt_translate(original, src, tgt)
-    tts_path   = _tts(translated, tgt)
-    return original, translated, tts_path
-# ─────────────────── 3. PDF / 이미지 번역 ─────────────────────
-def translate_document(file_in, src, tgt):
-    path = _safe_path(file_in)
-    if not path or not os.path.exists(path):
-        return "⚠️ PDF(또는 이미지) 파일을 업로드하세요.", ""
-    ext  = os.path.splitext(path)[1].lower()
-    mime = mimetypes.guess_type(path)[0] or ""
-    text = ""
     try:
-        if ext == ".pdf" or "pdf" in mime:
-            import pdfplumber
-            with pdfplumber.open(path) as pdf:
-                pages = pdf.pages[:5]  # 데모: 5쪽 제한
-                text  = "\n".join(p.extract_text() or "" for p in pages)
         else:
-            # 이미지의 경우 Tesseract 필요
-            try:
-                from PIL import Image
-                import pytesseract
-                text = pytesseract.image_to_string(Image.open(path))
-            except Exception:
-                return "⚠️ 서버에 Tesseract OCR가 없어서 이미지 OCR은 지원되지 않습니다. PDF만 사용하세요.", ""
     except Exception as e:
-        return f"❌ 텍스트 추출 실패: {e}", ""
-    text = text.strip()
-    if not text:
-        return "⚠️ 텍스트가 추출되지 않았습니다.", ""
-    translated = _gpt_translate(text, src, tgt)
-    return text, translated
-# ─────────────────── 4. 실시간 1개 언어 번역 ──────────────────
-def stream_single(mic_stream, src, tgt):
-    buf, header = io.BytesIO(), None
-    o_acc, t_acc = "", ""
-    while True:
-        chunk = mic_stream.recv()
-        if chunk is None:
-            break
-        if header is None:
-            header = chunk[:44]
-        buf.write(chunk)
-        if buf.getbuffer().nbytes > 16000*2*STREAM_SEC:
-            wav = header + buf.getvalue()
-            with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
-                tmp.write(wav); tmp.close()
-                o, t, _ = translate_audio(tmp.name, src, tgt)
-            o_acc += " " + o
-            t_acc += " " + t
-            yield o_acc.strip(), t_acc.strip()
-            buf = io.BytesIO()
-    if buf.getbuffer().nbytes:
-        wav = header + buf.getvalue()
-        with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
-            tmp.write(wav); tmp.close()
-            o, t, _ = translate_audio(tmp.name, src, tgt)
-        yield (o_acc+" "+o).strip(), (t_acc+" "+t).strip()
-# ─────────────────── 5. 실시간 4개 언어 번역 ──────────────────
-def stream_multi(mic_stream, src):
-    buf, header = io.BytesIO(), None
-    acc = {lang:"" for lang in ["orig"]+FOUR_LANGS}
-    while True:
-        chunk = mic_stream.recv()
-        if chunk is None:
-            break
-        if header is None:
-            header = chunk[:44]
-        buf.write(chunk)
-        if buf.getbuffer().nbytes > 16000*2*STREAM_SEC:
-            wav = header + buf.getvalue()
-            with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
-                tmp.write(wav); tmp.close()
-                with open(tmp.name,"rb") as f:
-                    stt = client.audio.transcriptions.create(
-                        model="whisper-1", file=f,
-                        language=LANG_CODE.get(src)
-                    )
-            orig = stt.text.strip()
-            if orig:
-                acc["orig"] += " " + orig
-                for lang in FOUR_LANGS:
-                    acc[lang] += " " + _gpt_translate(orig, src, lang)
-            yield (acc["orig"].strip(),
-                   acc["English"].strip(),
-                   acc["Chinese"].strip(),
-                   acc["Thai"].strip(),
-                   acc["Russian"].strip())
-            buf = io.BytesIO()
-    if buf.getbuffer().nbytes:
-        wav = header + buf.getvalue()
-        with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
-            tmp.write(wav); tmp.close()
-            with open(tmp.name,"rb") as f:
-                stt = client.audio.transcriptions.create(
-                    model="whisper-1", file=f,
-                    language=LANG_CODE.get(src)
-                )
-        orig = stt.text.strip()
-        if orig:
-            acc["orig"] += " " + orig
-            for lang in FOUR_LANGS:
-                acc[lang] += " " + _gpt_translate(orig, src, lang)
-    yield (acc["orig"].strip(),
-           acc["English"].strip(),
-           acc["Chinese"].strip(),
-           acc["Thai"].strip(),
-           acc["Russian"].strip())
-# ─────────────────── 6. Gradio UI ────────────────────────────
 with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
     with gr.Tabs():
-        # 탭 1 ─ 오디오 번역
         with gr.TabItem("🎙️ 오디오 번역"):
-            src1 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
-            tgt1 = gr.Dropdown(LANGUAGES,value="English",label="출력")
-            aud1 = gr.Audio(sources=["microphone","upload"],
-                            type="filepath",
-                            label="녹음 또는 오디오 파일 업로드")
-            btn1 = gr.Button("번역")
-            stt1 = gr.Textbox(label="원문", lines=5)
-            tlt1 = gr.Textbox(label="번역", lines=5)
-            out1 = gr.Audio(label="TTS",type="filepath",autoplay=True)
-            btn1.click(translate_audio,[aud1,src1,tgt1],[stt1,tlt1,out1])
-        # 탭 2 ─ 문서/이미지 번역
-        with gr.TabItem("📄 문서/이미지 번역"):
-            src2 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
-            tgt2 = gr.Dropdown(LANGUAGES,value="English",label="출력")
-            file2= gr.File(label="PDF 또는 이미지 업로드",
-                           file_types=[".pdf",".png",".jpg",".jpeg",".bmp",".tiff",".gif"])
-            btn2 = gr.Button("번역")
-            org2 = gr.Textbox(label="추출 원문",lines=15)
-            trs2 = gr.Textbox(label="번역 결과",lines=15)
-            btn2.click(translate_document,[file2,src2,tgt2],[org2,trs2])
-        # 탭 3 ─ 실시간 1언어 번역
         with gr.TabItem("⏱️ 실시간 1언어"):
-            src3 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
-            tgt3 = gr.Dropdown(LANGUAGES,value="English",label="출력")
-            mic3 = gr.Audio(sources=["microphone"],
-                            streaming=True,
-                            label="실시간 마이크")
-            stt3 = gr.Textbox(label="원문(실시간)",lines=8)
-            tlt3 = gr.Textbox(label="번역(실시간)",lines=8)
-            mic3.stream(stream_single,inputs=[src3,tgt3],outputs=[stt3,tlt3])
-        # 탭 4 ─ 실시간 4개 언어 번역
         with gr.TabItem("🌏 실시간 4개 언어"):
-            gr.Markdown("마이크 입력을 3-4 초 간격으로 **English / Chinese(简体) / Thai / Russian** 4개 언어로 동시 번역합니다.")
             src4 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
-            mic4 = gr.Audio(sources=["microphone"],
-                            streaming=True,
-                            label="실시간 마이크")
-            o4  = gr.Textbox(label="원문",lines=8)
-            e4  = gr.Textbox(label="English",lines=8)
-            z4  = gr.Textbox(label="Chinese(简体)",lines=8)
-            t4  = gr.Textbox(label="Thai",lines=8)
-            r4  = gr.Textbox(label="Russian",lines=8)
-            mic4.stream(stream_multi,inputs=[src4],
-                        outputs=[o4,e4,z4,t4,r4])
-# ─────────────────── 7. 실행 ────────────────────────────────
 if __name__ == "__main__":
-    app.launch(server_name="0.0.0.0",
-               server_port=7860,
-               share=False,
-               debug=True)

 """
+SMARTok 실시간 다국어 데모 (완전 수정본)
+────────────────────────────────────────────
+• 탭1  🎙️ 오디오 번역            : 마이크/파일 → 번역 + TTS
+• 탭2  📄 문서·이미지 번역        : PDF / 이미지(OCR) → 번역
+• 탭3  ⏱️ 실시간 1언어 번역       : 마이크 → 1개 언어 실시간 자막
+• 탭4  🌏 실시간 4개 언어 번역    : 마이크 → 영·중·태·러 동시 자막
+────────────────────────────────────────────
+필수 apt  : tesseract-ocr libtesseract-dev ocrmypdf ffmpeg
+필수 pip  : gradio>=5.33 openai python-dotenv pdfplumber ocrmypdf pillow
 """
 import gradio as gr
+import openai, os, io, tempfile, mimetypes, json, uuid
 from dotenv import load_dotenv
+import pdfplumber, ocrmypdf
+from PIL import Image
+# ────────────── 0. 공통 초기화 ────────────────────────────────────
 load_dotenv()
 api_key = os.getenv("OPENAI_API_KEY")
 if not api_key:
 }
 VOICE = {l: ("nova" if l in ["Korean","Japanese","Chinese"] else "alloy")
          for l in LANGUAGES}
+FOUR = ["English","Chinese","Thai","Russian"]
+STREAM_SEC = 4   # Whisper 호출 주기
+# ────────────── 1. 유틸 함수 ─────────────────────────────────────
+def _safe(v):
     if v is None:
         return None
+    return v["name"] if isinstance(v, dict) else v
+def _gpt(text, src, tgt):
     rsp = client.chat.completions.create(
         model="gpt-3.5-turbo",
         messages=[
             {"role":"system",
+             "content":f"Translate the following {src} text to {tgt}. "
+                        "Return only the translation."},
             {"role":"user","content":text}
         ],
         temperature=0.3,max_tokens=4096
     )
     return rsp.choices[0].message.content.strip()
+def _tts(text, lang):
+    rsp = client.audio.speech.create(
         model="tts-1",
         voice=VOICE.get(lang,"alloy"),
         input=text[:4096]
     )
+    tmp = tempfile.NamedTemporaryFile(delete=False,suffix=".mp3")
+    tmp.write(rsp.content); tmp.close()
     return tmp.name
+# ────────────── 2. 오디오(단건) 번역 ─────────────────────────────
 def translate_audio(audio_in, src, tgt):
+    p = _safe(audio_in)
+    if not p or not os.path.exists(p):
+        return "⚠️ 음성 파일 필요", "", None
+    with open(p,"rb") as f:
         stt = client.audio.transcriptions.create(
+            model="whisper-1", file=f, language=LANG_CODE.get(src))
+    orig = stt.text.strip()
+    if not orig:
         return "⚠️ 음성 인식 실패", "", None
+    trans = _gpt(orig, src, tgt)
+    return orig, trans, _tts(trans, tgt)
+# ────────────── 3. 문서 / 이미지 번역 ────────────────────────────
+def translate_doc(file_in, src, tgt):
+    p = _safe(file_in)
+    if not p or not os.path.exists(p):
+        return "⚠️ PDF/이미지 업로드", ""
+    ext = os.path.splitext(p)[1].lower()
+    mime = mimetypes.guess_type(p)[0] or ""
     try:
+        # PDF 그대로
+        if ext==".pdf" or "pdf" in mime:
+            with pdfplumber.open(p) as pdf:
+                txt = "\n".join(pg.extract_text() or "" for pg in pdf.pages[:5])
+        # 이미지 → OCR PDF
         else:
+            img_pdf = tempfile.NamedTemporaryFile(delete=False,suffix=".pdf").name
+            Image.open(p).save(img_pdf,"PDF")
+            ocr_pdf = tempfile.NamedTemporaryFile(delete=False,suffix=".pdf").name
+            ocrmypdf.ocr(img_pdf, ocr_pdf,
+                         lang=LANG_CODE.get(src,"eng"),
+                         deskew=True,optimize=0,progress_bar=False)
+            with pdfplumber.open(ocr_pdf) as pdf:
+                txt = "\n".join(pg.extract_text() or "" for pg in pdf.pages)
     except Exception as e:
+        return f"❌ 추출 오류: {e}", ""
+    txt = txt.strip()
+    if not txt:
+        return "⚠️ 텍스트 추출 실패", ""
+    return txt, _gpt(txt, src, tgt)
+# ────────────── 4. 실시간 1언어 ──────────────────────────────────
+def stream_single(audio_path, src, tgt, state):
+    state = state or {"orig":"", "trans":""}
+    if not audio_path or not os.path.exists(audio_path):
+        return state["orig"], state["trans"], state
+    with open(audio_path,"rb") as f:
+        stt = client.audio.transcriptions.create(
+            model="whisper-1", file=f, language=LANG_CODE.get(src))
+    full = stt.text.strip()
+    new = full[len(state["orig"]):]
+    if new:
+        state["orig"] = full
+        state["trans"] += " " + _gpt(new, src, tgt)
+    return state["orig"], state["trans"].strip(), state
+# ────────────── 5. 실시간 4언어 ──────────────────────────────────
+def stream_multi(audio_path, src, state):
+    state = state or {k:"" for k in ["orig"]+FOUR}
+    if not audio_path or not os.path.exists(audio_path):
+        return state["orig"],state["English"],state["Chinese"],state["Thai"],state["Russian"],state
+    with open(audio_path,"rb") as f:
+        stt = client.audio.transcriptions.create(
+            model="whisper-1", file=f, language=LANG_CODE.get(src))
+    full = stt.text.strip()
+    new = full[len(state["orig"]):]
+    if new:
+        state["orig"] = full
+        for lang in FOUR:
+            state[lang] += " " + _gpt(new, src, lang)
+    return (state["orig"].strip(),
+            state["English"].strip(),
+            state["Chinese"].strip(),
+            state["Thai"].strip(),
+            state["Russian"].strip(),
+            state)
+# ────────────── 6. Gradio UI ───────────────────────────────────
 with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
     with gr.Tabs():
+        # 탭 1
         with gr.TabItem("🎙️ 오디오 번역"):
+            src1 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
+            tgt1 = gr.Dropdown(LANGUAGES,value="English",label="출력 언어")
+            aud1 = gr.Audio(sources=["microphone","upload"],type="filepath")
+            res1 = gr.Button("번역")
+            o1   = gr.Textbox(label="원문",lines=5)
+            t1   = gr.Textbox(label="번역",lines=5)
+            a1   = gr.Audio(label="TTS",type="filepath",autoplay=True)
+            res1.click(translate_audio,[aud1,src1,tgt1],[o1,t1,a1])
+        # 탭 2
+        with gr.TabItem("📄 문서·이미지 번역"):
+            src2 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
+            tgt2 = gr.Dropdown(LANGUAGES,value="English",label="출력 언어")
+            file2= gr.File(label="PDF/이미지 업로드",
+                           file_types=[".pdf",".png",".jpg",".jpeg",
+                                       ".bmp",".tiff",".gif"])
+            doc2 = gr.Button("번역")
+            o2   = gr.Textbox(label="추출 원문",lines=15)
+            t2   = gr.Textbox(label="번역 결과",lines=15)
+            doc2.click(translate_doc,[file2,src2,tgt2],[o2,t2])
+        # 탭 3
         with gr.TabItem("⏱️ 실시간 1언어"):
+            src3 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
+            tgt3 = gr.Dropdown(LANGUAGES,value="English",label="출력 언어")
+            mic3 = gr.Audio(sources=["microphone"],streaming=True)
+            o3   = gr.Textbox(label="원문(실시간)",lines=8)
+            t3   = gr.Textbox(label="번역(실시간)",lines=8)
+            st3  = gr.State()
+            mic3.stream(stream_single,
+                        inputs=[src3,tgt3,st3],
+                        outputs=[o3,t3,st3])
+        # 탭 4
         with gr.TabItem("🌏 실시간 4개 언어"):
             src4 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
+            mic4 = gr.Audio(sources=["microphone"],streaming=True)
+            o4   = gr.Textbox(label="원문",lines=8)
+            e4   = gr.Textbox(label="English",lines=8)
+            c4   = gr.Textbox(label="Chinese(简体)",lines=8)
+            th4  = gr.Textbox(label="Thai",lines=8)
+            r4   = gr.Textbox(label="Russian",lines=8)
+            st4  = gr.State()
+            mic4.stream(stream_multi,
+                        inputs=[src4,st4],
+                        outputs=[o4,e4,c4,th4,r4,st4])
+# ────────────── 7. 실행 ───────────────────────────────────────
 if __name__ == "__main__":
+    app.launch(server_name="0.0.0.0",server_port=7860,share=False,debug=True)