Spaces:

VIDraft
/

voice-trans

Running on Zero

App Files Files Community

openfree commited on Jun 9

Commit

effad1c

verified ·

1 Parent(s): 392a5eb

Update app.py

Browse files

Files changed (1) hide show

app.py +79 -62

app.py CHANGED Viewed

@@ -1,8 +1,19 @@
 import gradio as gr
 import openai, os, io, tempfile, mimetypes
 from dotenv import load_dotenv
-# ────────────────────────── 공통 초기화 ──────────────────────────
 load_dotenv()
 api_key = os.getenv("OPENAI_API_KEY")
 if not api_key:
@@ -19,16 +30,21 @@ LANG_CODE = {
     "Thai":"th","Russian":"ru","Vietnamese":"vi",
     "Spanish":"es","French":"fr"
 }
-FOUR_LANGS = ["English", "Chinese", "Thai", "Russian"]  # 실시간 동시 번역 언어
-VOICE = {l:("nova" if l in ["Korean","Japanese","Chinese"] else "alloy")
          for l in LANGUAGES}
-# ────────────────────────── 유틸 함수 ───────────────────────────
 def _safe_path(v):
-    if v is None: return None
     return v.get("name") if isinstance(v, dict) else v
-def _gpt_translate(text, src, tgt):
     rsp = client.chat.completions.create(
         model="gpt-3.5-turbo",
         messages=[
@@ -37,25 +53,27 @@ def _gpt_translate(text, src, tgt):
                         f"Only provide the translated text."},
             {"role":"user","content":text}
         ],
-        temperature=0.3, max_tokens=2048
     )
     return rsp.choices[0].message.content.strip()
-def _tts(text, lang):
     out = client.audio.speech.create(
         model="tts-1",
         voice=VOICE.get(lang,"alloy"),
         input=text[:4096]
     )
     tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
-    tmp.write(out.content); tmp.close()
     return tmp.name
-# ────────────────── ① 음성(Mic·File) 단건 번역 ──────────────────
 def translate_audio(audio_in, src, tgt):
     path = _safe_path(audio_in)
     if not path or not os.path.exists(path):
-        return "⚠️ 음성 파일을 녹음/업로드하세요.", "", None
     with open(path,"rb") as f:
         stt = client.audio.transcriptions.create(
@@ -71,13 +89,13 @@ def translate_audio(audio_in, src, tgt):
     tts_path   = _tts(translated, tgt)
     return original, translated, tts_path
-# ────────────────── ② PDF / 이미지 번역 ─────────────────────────
 def translate_document(file_in, src, tgt):
     path = _safe_path(file_in)
     if not path or not os.path.exists(path):
-        return "⚠️ PDF 또는 이미지를 업로드하세요.", ""
-    ext = os.path.splitext(path)[1].lower()
     mime = mimetypes.guess_type(path)[0] or ""
     text = ""
@@ -85,14 +103,16 @@ def translate_document(file_in, src, tgt):
         if ext == ".pdf" or "pdf" in mime:
             import pdfplumber
             with pdfplumber.open(path) as pdf:
-                pages = pdf.pages[:5]  # 데모: 최대 5쪽
-                text = "\n".join(p.extract_text() or "" for p in pages)
-        elif ext in [".png",".jpg",".jpeg",".bmp",".tiff",".gif"] or "image" in mime:
-            from PIL import Image
-            import pytesseract
-            text = pytesseract.image_to_string(Image.open(path))
         else:
-            return "⚠️ 지원하지 않는 파일 형식입니다.", ""
     except Exception as e:
         return f"❌ 텍스트 추출 실패: {e}", ""
@@ -103,25 +123,27 @@ def translate_document(file_in, src, tgt):
     translated = _gpt_translate(text, src, tgt)
     return text, translated
-# ──────────────── ③ 실시간 1개 언어 번역 (옵션) ─────────────────
-STREAM_SEC = 4  # Whisper 호출 주기
 def stream_single(mic_stream, src, tgt):
     buf, header = io.BytesIO(), None
     o_acc, t_acc = "", ""
     while True:
         chunk = mic_stream.recv()
-        if chunk is None: break
-        if header is None: header = chunk[:44]
         buf.write(chunk)
         if buf.getbuffer().nbytes > 16000*2*STREAM_SEC:
             wav = header + buf.getvalue()
             with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
                 tmp.write(wav); tmp.close()
                 o, t, _ = translate_audio(tmp.name, src, tgt)
-            o_acc += " " + o; t_acc += " " + t
             yield o_acc.strip(), t_acc.strip()
             buf = io.BytesIO()
     if buf.getbuffer().nbytes:
         wav = header + buf.getvalue()
         with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
@@ -129,17 +151,18 @@ def stream_single(mic_stream, src, tgt):
             o, t, _ = translate_audio(tmp.name, src, tgt)
         yield (o_acc+" "+o).strip(), (t_acc+" "+t).strip()
-# ─────────────── ④ 실시간 4개 언어 동시 번역 ────────────────────
 def stream_multi(mic_stream, src):
     buf, header = io.BytesIO(), None
-    acc = {lang: "" for lang in ["original"] + FOUR_LANGS}
     while True:
         chunk = mic_stream.recv()
-        if chunk is None: break
-        if header is None: header = chunk[:44]
         buf.write(chunk)
         if buf.getbuffer().nbytes > 16000*2*STREAM_SEC:
             wav = header + buf.getvalue()
             with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
@@ -151,17 +174,16 @@ def stream_multi(mic_stream, src):
                     )
             orig = stt.text.strip()
             if orig:
-                acc["original"] += " " + orig
                 for lang in FOUR_LANGS:
                     acc[lang] += " " + _gpt_translate(orig, src, lang)
-            yield (acc["original"].strip(),
                    acc["English"].strip(),
                    acc["Chinese"].strip(),
                    acc["Thai"].strip(),
                    acc["Russian"].strip())
             buf = io.BytesIO()
-    # 남은 버퍼
     if buf.getbuffer().nbytes:
         wav = header + buf.getvalue()
         with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
@@ -173,19 +195,19 @@ def stream_multi(mic_stream, src):
                 )
         orig = stt.text.strip()
         if orig:
-            acc["original"] += " " + orig
             for lang in FOUR_LANGS:
                 acc[lang] += " " + _gpt_translate(orig, src, lang)
-    yield (acc["original"].strip(),
            acc["English"].strip(),
            acc["Chinese"].strip(),
            acc["Thai"].strip(),
            acc["Russian"].strip())
-# ────────────────────────── Gradio UI ──────────────────────────────
 with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
     with gr.Tabs():
-        # 1) 오디오(녹음·업로드) 번역
         with gr.TabItem("🎙️ 오디오 번역"):
             src1 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
             tgt1 = gr.Dropdown(LANGUAGES,value="English",label="출력")
@@ -196,51 +218,46 @@ with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
             stt1 = gr.Textbox(label="원문", lines=5)
             tlt1 = gr.Textbox(label="번역", lines=5)
             out1 = gr.Audio(label="TTS",type="filepath",autoplay=True)
-            btn1.click(translate_audio, [aud1,src1,tgt1],[stt1,tlt1,out1])
-        # 2) PDF / 이미지 번역
         with gr.TabItem("📄 문서/이미지 번역"):
             src2 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
             tgt2 = gr.Dropdown(LANGUAGES,value="English",label="출력")
             file2= gr.File(label="PDF 또는 이미지 업로드",
-                           file_types=[".pdf",".png",".jpg",".jpeg",
-                                       ".bmp",".tiff",".gif"])
             btn2 = gr.Button("번역")
             org2 = gr.Textbox(label="추출 원문",lines=15)
             trs2 = gr.Textbox(label="번역 결과",lines=15)
             btn2.click(translate_document,[file2,src2,tgt2],[org2,trs2])
-        # 3) 실시간 1개 언어 번역(선택)
         with gr.TabItem("⏱️ 실시간 1언어"):
             src3 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
             tgt3 = gr.Dropdown(LANGUAGES,value="English",label="출력")
             mic3 = gr.Audio(sources=["microphone"],
-                            streaming=True,label="실시간 마이크")
             stt3 = gr.Textbox(label="원문(실시간)",lines=8)
             tlt3 = gr.Textbox(label="번역(실시간)",lines=8)
-            mic3.stream(lambda a,s,t: stream_single(a,s,t),
-                        inputs=[src3,tgt3],
-                        outputs=[stt3,tlt3])
-        # 4) **실시간 4개 언어 동시 번역**  ← 핵심 데모
         with gr.TabItem("🌏 실시간 4개 언어"):
-            gr.Markdown("마이크 입력을 **English / Chinese(简体) / Thai / Russian** "
-                        "4개 언어로 실시간(3-4 초 지연) 동시 번역합니다.")
             src4 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
             mic4 = gr.Audio(sources=["microphone"],
-                            streaming=True,label="실시간 마이크")
-            o4  = gr.Textbox(label="원문",  lines=8)
-            e4  = gr.Textbox(label="English", lines=8)
-            z4  = gr.Textbox(label="Chinese(简体)", lines=8)
-            t4  = gr.Textbox(label="Thai", lines=8)
-            r4  = gr.Textbox(label="Russian", lines=8)
-            # Audio.stream → 5개 출력
-            mic4.stream(lambda a,s: stream_multi(a,s),
-                        inputs=[src4],
                         outputs=[o4,e4,z4,t4,r4])
-# ─────────────────────────── 실행 ────────────────────────────────
 if __name__ == "__main__":
     app.launch(server_name="0.0.0.0",
                server_port=7860,

+"""
+SMARTok 핵심 데모
+──────────────────────────────────────────────
+✓ 탭 1 : 오디오(녹음·파일) 단건 번역 + TTS 재생
+✓ 탭 2 : PDF / 이미지 번역 (Tesseract 없으면 PDF만 안내)
+✓ 탭 3 : 실시간 1개 언어(선택형) 번역
+✓ 탭 4 : 실시간 4개 언어(영·중(간)·태·러) 동시 번역
+──────────────────────────────────────────────
+Python ≥3.10, Gradio 4.x, OpenAI Python SDK 필요
+"""
 import gradio as gr
 import openai, os, io, tempfile, mimetypes
 from dotenv import load_dotenv
+# ─────────────────── 0. 공통 초기화 ──────────────────────────
 load_dotenv()
 api_key = os.getenv("OPENAI_API_KEY")
 if not api_key:
     "Thai":"th","Russian":"ru","Vietnamese":"vi",
     "Spanish":"es","French":"fr"
 }
+VOICE = {l: ("nova" if l in ["Korean","Japanese","Chinese"] else "alloy")
          for l in LANGUAGES}
+FOUR_LANGS = ["English", "Chinese", "Thai", "Russian"]  # 실시간 동시 번역용
+STREAM_SEC = 4  # Whisper 호출 간격(초) – 3~4 초 정도 지연
+# ─────────────────── 1. 유틸 함수 ───────────────────────────
 def _safe_path(v):
+    """Gradio File/Audio 입력 → 실제 경로 추출"""
+    if v is None:
+        return None
     return v.get("name") if isinstance(v, dict) else v
+def _gpt_translate(text: str, src: str, tgt: str) -> str:
+    """GPT-3.5-turbo 번역 (설명 없이 결과만)"""
     rsp = client.chat.completions.create(
         model="gpt-3.5-turbo",
         messages=[
                         f"Only provide the translated text."},
             {"role":"user","content":text}
         ],
+        temperature=0.3,max_tokens=4096
     )
     return rsp.choices[0].message.content.strip()
+def _tts(text: str, lang: str) -> str:
+    """OpenAI TTS-1 ⇒ MP3 파일 경로 반환"""
     out = client.audio.speech.create(
         model="tts-1",
         voice=VOICE.get(lang,"alloy"),
         input=text[:4096]
     )
     tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
+    tmp.write(out.content)
+    tmp.close()
     return tmp.name
+# ─────────────────── 2. 단건 오디오 번역 ───────────────────────
 def translate_audio(audio_in, src, tgt):
     path = _safe_path(audio_in)
     if not path or not os.path.exists(path):
+        return "⚠️ 음성 파일을 녹음-업로드하세요.", "", None
     with open(path,"rb") as f:
         stt = client.audio.transcriptions.create(
     tts_path   = _tts(translated, tgt)
     return original, translated, tts_path
+# ─────────────────── 3. PDF / 이미지 번역 ─────────────────────
 def translate_document(file_in, src, tgt):
     path = _safe_path(file_in)
     if not path or not os.path.exists(path):
+        return "⚠️ PDF(또는 이미지) 파일을 업로드하세요.", ""
+    ext  = os.path.splitext(path)[1].lower()
     mime = mimetypes.guess_type(path)[0] or ""
     text = ""
         if ext == ".pdf" or "pdf" in mime:
             import pdfplumber
             with pdfplumber.open(path) as pdf:
+                pages = pdf.pages[:5]  # 데모: 5쪽 제한
+                text  = "\n".join(p.extract_text() or "" for p in pages)
         else:
+            # 이미지의 경우 Tesseract 필요
+            try:
+                from PIL import Image
+                import pytesseract
+                text = pytesseract.image_to_string(Image.open(path))
+            except Exception:
+                return "⚠️ 서버에 Tesseract OCR가 없어서 이미지 OCR은 지원되지 않습니다. PDF만 사용하세요.", ""
     except Exception as e:
         return f"❌ 텍스트 추출 실패: {e}", ""
     translated = _gpt_translate(text, src, tgt)
     return text, translated
+# ─────────────────── 4. 실시간 1개 언어 번역 ──────────────────
 def stream_single(mic_stream, src, tgt):
     buf, header = io.BytesIO(), None
     o_acc, t_acc = "", ""
     while True:
         chunk = mic_stream.recv()
+        if chunk is None:
+            break
+        if header is None:
+            header = chunk[:44]
         buf.write(chunk)
         if buf.getbuffer().nbytes > 16000*2*STREAM_SEC:
             wav = header + buf.getvalue()
             with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
                 tmp.write(wav); tmp.close()
                 o, t, _ = translate_audio(tmp.name, src, tgt)
+            o_acc += " " + o
+            t_acc += " " + t
             yield o_acc.strip(), t_acc.strip()
             buf = io.BytesIO()
     if buf.getbuffer().nbytes:
         wav = header + buf.getvalue()
         with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
             o, t, _ = translate_audio(tmp.name, src, tgt)
         yield (o_acc+" "+o).strip(), (t_acc+" "+t).strip()
+# ─────────────────── 5. 실시간 4개 언어 번역 ──────────────────
 def stream_multi(mic_stream, src):
     buf, header = io.BytesIO(), None
+    acc = {lang:"" for lang in ["orig"]+FOUR_LANGS}
     while True:
         chunk = mic_stream.recv()
+        if chunk is None:
+            break
+        if header is None:
+            header = chunk[:44]
         buf.write(chunk)
         if buf.getbuffer().nbytes > 16000*2*STREAM_SEC:
             wav = header + buf.getvalue()
             with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
                     )
             orig = stt.text.strip()
             if orig:
+                acc["orig"] += " " + orig
                 for lang in FOUR_LANGS:
                     acc[lang] += " " + _gpt_translate(orig, src, lang)
+            yield (acc["orig"].strip(),
                    acc["English"].strip(),
                    acc["Chinese"].strip(),
                    acc["Thai"].strip(),
                    acc["Russian"].strip())
             buf = io.BytesIO()
     if buf.getbuffer().nbytes:
         wav = header + buf.getvalue()
         with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
                 )
         orig = stt.text.strip()
         if orig:
+            acc["orig"] += " " + orig
             for lang in FOUR_LANGS:
                 acc[lang] += " " + _gpt_translate(orig, src, lang)
+    yield (acc["orig"].strip(),
            acc["English"].strip(),
            acc["Chinese"].strip(),
            acc["Thai"].strip(),
            acc["Russian"].strip())
+# ─────────────────���─ 6. Gradio UI ────────────────────────────
 with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
     with gr.Tabs():
+        # 탭 1 ─ 오디오 번역
         with gr.TabItem("🎙️ 오디오 번역"):
             src1 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
             tgt1 = gr.Dropdown(LANGUAGES,value="English",label="출력")
             stt1 = gr.Textbox(label="원문", lines=5)
             tlt1 = gr.Textbox(label="번역", lines=5)
             out1 = gr.Audio(label="TTS",type="filepath",autoplay=True)
+            btn1.click(translate_audio,[aud1,src1,tgt1],[stt1,tlt1,out1])
+        # 탭 2 ─ 문서/이미지 번역
         with gr.TabItem("📄 문서/이미지 번역"):
             src2 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
             tgt2 = gr.Dropdown(LANGUAGES,value="English",label="출력")
             file2= gr.File(label="PDF 또는 이미지 업로드",
+                           file_types=[".pdf",".png",".jpg",".jpeg",".bmp",".tiff",".gif"])
             btn2 = gr.Button("번역")
             org2 = gr.Textbox(label="추출 원문",lines=15)
             trs2 = gr.Textbox(label="번역 결과",lines=15)
             btn2.click(translate_document,[file2,src2,tgt2],[org2,trs2])
+        # 탭 3 ─ 실시간 1언어 번역
         with gr.TabItem("⏱️ 실시간 1언어"):
             src3 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
             tgt3 = gr.Dropdown(LANGUAGES,value="English",label="출력")
             mic3 = gr.Audio(sources=["microphone"],
+                            streaming=True,
+                            label="실시간 마이크")
             stt3 = gr.Textbox(label="원문(실시간)",lines=8)
             tlt3 = gr.Textbox(label="번역(실시간)",lines=8)
+            mic3.stream(stream_single,inputs=[src3,tgt3],outputs=[stt3,tlt3])
+        # 탭 4 ─ 실시간 4개 언어 번역
         with gr.TabItem("🌏 실시간 4개 언어"):
+            gr.Markdown("마이크 입력을 3-4 초 간격으로 **English / Chinese(简体) / Thai / Russian** 4개 언어로 동시 번역합니다.")
             src4 = gr.Dropdown(LANGUAGES,value="Korean",label="입력 언어")
             mic4 = gr.Audio(sources=["microphone"],
+                            streaming=True,
+                            label="실시간 마이크")
+            o4  = gr.Textbox(label="원문",lines=8)
+            e4  = gr.Textbox(label="English",lines=8)
+            z4  = gr.Textbox(label="Chinese(简体)",lines=8)
+            t4  = gr.Textbox(label="Thai",lines=8)
+            r4  = gr.Textbox(label="Russian",lines=8)
+            mic4.stream(stream_multi,inputs=[src4],
                         outputs=[o4,e4,z4,t4,r4])
+# ─────────────────── 7. 실행 ────────────────────────────────
 if __name__ == "__main__":
     app.launch(server_name="0.0.0.0",
                server_port=7860,