Spaces:

VIDraft
/

voice-trans

Sleeping

App Files Files Community

openfree commited on Jun 9

Commit

a609646

verified ·

1 Parent(s): 32b3c75

Update app.py

Browse files

Files changed (1) hide show

app.py +121 -200

app.py CHANGED Viewed

@@ -1,213 +1,134 @@
 import gradio as gr
-import openai
-import os
-import tempfile
 from dotenv import load_dotenv
-# ===== 공통 초기화 =========================================
 load_dotenv()
 api_key = os.getenv("OPENAI_API_KEY")
 if not api_key:
-    print("⚠️  OPENAI_API_KEY를 .env 파일에 설정하세요!")
-else:
-    print(f"✅ API Key 로드됨: {api_key[:10]}...")
-try:
-    client = openai.OpenAI(api_key=api_key)
-except Exception as e:
-    print(f"❌ OpenAI 클라이언트 초기화 실패: {e}")
-    client = None
-# ===== 언어 설정 ===========================================
 LANGUAGES = [
-    "Korean", "English", "Japanese", "Chinese",  # 기존
-    "Thai", "Russian", "Vietnamese",             # 추가
-    "Spanish", "French"                          # 선택
 ]
-# Whisper용 ISO-639 코드 매핑
-LANG_CODE_MAP = {
-    "Korean": "ko", "English": "en", "Japanese": "ja", "Chinese": "zh",
-    "Thai": "th", "Russian": "ru", "Vietnamese": "vi",
-    "Spanish": "es", "French": "fr"
-}
-# TTS 음성 매핑(OpenAI tts-1: alloy, nova 두 가지)
-VOICE_MAP = {
-    "Korean": "nova",
-    "English": "alloy",
-    "Japanese": "nova",
-    "Chinese": "nova",
-    "Thai": "alloy",
-    "Russian": "alloy",
-    "Vietnamese": "alloy",
-    "Spanish": "alloy",
-    "French": "alloy"
-}
-# ----------------------------------------------------------
-#  (1) 음성(STT) → 번역 → 음성(TTS)
-# ----------------------------------------------------------
-def translate_audio(audio_file, source_lang, target_lang):
-    if not audio_file:
-        return "⚠️ 오디오 파일을 업로드하거나 녹음하세요.", "", None
-    if not api_key or not client:
-        return "❌ API 초기화 오류", "", None
-    if source_lang == target_lang:
-        return "⚠️ 입력 언어와 출력 언어가 같습니다.", "", None
-    try:
-        # ---------- Whisper STT ----------
-        lang_code = LANG_CODE_MAP.get(source_lang, None)
-        with open(audio_file, "rb") as f:
-            transcript = client.audio.transcriptions.create(
-                model="whisper-1",
-                file=f,
-                language=lang_code if lang_code else None  # 못 찾으면 자동감지
-            )
-        original_text = transcript.text.strip()
-        if not original_text:
-            return "⚠️ 음성이 인식되지 않았습니다.", "", None
-        # ---------- GPT 번역 ----------
-        response = client.chat.completions.create(
-            model="gpt-3.5-turbo",
-            messages=[
-                {"role": "system",
-                 "content": f"You are a professional translator. Translate the following {source_lang} text to {target_lang}. "
-                            f"Only provide the translation without any explanation or additional text."},
-                {"role": "user", "content": original_text}
-            ],
-            temperature=0.3,
-            max_tokens=2000
-        )
-        translated_text = response.choices[0].message.content.strip()
-        # ---------- TTS ----------
-        tts_response = client.audio.speech.create(
-            model="tts-1",
-            voice=VOICE_MAP.get(target_lang, "alloy"),
-            input=translated_text[:4096]
-        )
-        with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp:
-            tmp.write(tts_response.content)
-            output_audio = tmp.name
-        return original_text, translated_text, output_audio
-    except Exception as e:
-        return f"❌ 오류: {type(e).__name__}: {str(e)}", "", None
-# ----------------------------------------------------------
-#  (2) PDF / 이미지 → 번역
-# ----------------------------------------------------------
-def translate_document(file_obj, source_lang, target_lang):
-    if not file_obj:
-        return "⚠️ 파일을 업로드하세요.", ""
-    if not api_key or not client:
-        return "❌ API 초기화 오류", ""
-    if source_lang == target_lang:
-        return "⚠️ 입력 언어와 출력 언어가 같습니다.", ""
-    ext = os.path.splitext(file_obj.name)[1].lower()
-    try:
-        # --- 텍스트 추출 ---
-        if ext == ".pdf":
-            import pdfplumber
-            text_chunks = []
-            with pdfplumber.open(file_obj.name) as pdf:
-                for page in pdf.pages[:5]:  # 데모: 앞 5쪽만
-                    text_chunks.append(page.extract_text() or "")
-            original_text = "\n".join(text_chunks).strip()
-        elif ext in [".png", ".jpg", ".jpeg", ".webp", ".bmp", ".tiff"]:
-            from PIL import Image
-            import pytesseract
-            original_text = pytesseract.image_to_string(Image.open(file_obj.name))
-        else:
-            return "⚠️ 지원하지 않는 형식입니다.", ""
-        if not original_text:
-            return "⚠️ 텍스트를 추출할 수 없습니다.", ""
-        # --- 번역 ---
-        response = client.chat.completions.create(
-            model="gpt-3.5-turbo",
-            messages=[
-                {"role": "system",
-                 "content": f"You are a professional translator. Translate the following {source_lang} text to {target_lang}. "
-                            f"Only provide the translation without any explanation or additional text."},
-                {"role": "user", "content": original_text}
-            ],
-            temperature=0.3,
-            max_tokens=4096
-        )
-        translated_text = response.choices[0].message.content.strip()
-        return original_text, translated_text
-    except Exception as e:
-        return f"❌ 오류: {type(e).__name__}: {str(e)}", ""
-# ==========================================================
-# Gradio UI
-# ==========================================================
 with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
     with gr.Tabs():
-        # ----- 🎙️ 음성 번역 -----
-        with gr.TabItem("🎙️ 음성 번역"):
-            gr.Markdown("""
-            # 🎙️ AI 음성 번역기
-            마이크로 녹음하거나 오디오 파일을 업로드하면 **실시간 자막 + 번역 + 음성합성**까지 한 번에!
-            """)
-            with gr.Row():
-                src_lang_a = gr.Dropdown(LANGUAGES, value="Korean", label="입력 언어")
-                tgt_lang_a = gr.Dropdown(LANGUAGES, value="English", label="출력 언어")
-            audio_in = gr.Audio(
-                sources=["microphone", "upload"],
-                type="filepath",
-                label="음성 입력 (녹음 또는 파일 업로드)"
-            )
-            btn_audio = gr.Button("🔄 번역하기")
-            with gr.Row():
-                stt_text = gr.Textbox(label="📝 원본 텍스트", lines=5)
-                tlt_text = gr.Textbox(label="🌐 번역된 텍스트", lines=5)
-            audio_out = gr.Audio(label="🔊 번역된 음성", type="filepath", autoplay=True)
-            btn_audio.click(
-                translate_audio,
-                inputs=[audio_in, src_lang_a, tgt_lang_a],
-                outputs=[stt_text, tlt_text, audio_out]
-            )
-        # ----- 📄 자료 번역 -----
-        with gr.TabItem("📄 자료 번역"):
-            gr.Markdown("""
-            # 📄 PDF / 이미지 번역 데모
-            교육자료·발표자료 등 **PDF 최대 5쪽** 또는 이미지 1장을 업로드하면 텍스트 추출 후 번역해줍니다.
-            """)
-            with gr.Row():
-                src_lang_d = gr.Dropdown(LANGUAGES, value="Korean", label="입력 언어")
-                tgt_lang_d = gr.Dropdown(LANGUAGES, value="English", label="출력 언어")
-            file_in = gr.File(label="PDF / 이미지 업로드")
-            btn_doc = gr.Button("🔄 번역하기")
-            original_doc = gr.Textbox(label="📝 추출된 원문", lines=15)
-            translated_doc = gr.Textbox(label="🌐 번역 결과", lines=15)
-            btn_doc.click(
-                translate_document,
-                inputs=[file_in, src_lang_d, tgt_lang_d],
-                outputs=[original_doc, translated_doc]
-            )
-# ==========================================================
 if __name__ == "__main__":
-    print("🚀 서버 시작 중...")
-    app.launch(server_name="0.0.0.0", server_port=7860, share=False, debug=True)

 import gradio as gr
+import openai, os, io, tempfile, wave, time, threading
 from dotenv import load_dotenv
+# =============== 공통 초기화 ========================================
 load_dotenv()
 api_key = os.getenv("OPENAI_API_KEY")
 if not api_key:
+    raise RuntimeError("OPENAI_API_KEY를 .env 파일에 설정하세요!")
+client = openai.OpenAI(api_key=api_key)
 LANGUAGES = [
+    "Korean", "English", "Japanese", "Chinese",
+    "Thai", "Russian", "Vietnamese",
+    "Spanish", "French"
 ]
+LANG_CODE = {"Korean":"ko","English":"en","Japanese":"ja","Chinese":"zh",
+             "Thai":"th","Russian":"ru","Vietnamese":"vi",
+             "Spanish":"es","French":"fr"}
+VOICE = {lang: ("nova" if lang in ["Korean","Japanese","Chinese"] else "alloy")
+         for lang in LANGUAGES}
+# ---------------- 공통 번역/합성 ------------------------------------
+def _gpt_translate(text, src, tgt):
+    rsp = client.chat.completions.create(
+        model="gpt-3.5-turbo",
+        messages=[
+            {"role":"system",
+             "content":f"You are a professional translator. Translate {src} to {tgt}. "
+                       f"Only give the translated text."},
+            {"role":"user","content":text}
+        ],
+        temperature=0.3,max_tokens=2048)
+    return rsp.choices[0].message.content.strip()
+def _tts(text, lang):
+    out = client.audio.speech.create(model="tts-1",
+                                     voice=VOICE.get(lang,"alloy"),
+                                     input=text[:4096])
+    tmp = tempfile.NamedTemporaryFile(delete=False,suffix=".mp3")
+    tmp.write(out.content); tmp.close()
+    return tmp.name
+# =============== 1) 마이크·파일 공통 처리 ============================
+def translate_audio(audio_path, src, tgt):
+    """wav/mp3 경로 -> (원문, 번역문, 번역 TTS 경로)"""
+    with open(audio_path,"rb") as f:
+        stt = client.audio.transcriptions.create(
+            model="whisper-1",
+            file=f,
+            language=LANG_CODE.get(src))
+    original = stt.text.strip()
+    if not original:
+        return "⚠️ 음성 인식 실패", "", None
+    translated = _gpt_translate(original, src, tgt)
+    tts_path = _tts(translated, tgt)
+    return original, translated, tts_path
+# =============== 2) 실시간 스트리밍(베타) ============================
+STREAM_CHUNK_SEC = 4       # 4초마다 Whisper 호출
+def stream_generator(mic_stream, src, tgt):
+    """generator: 매 chunk마다 yield (원문누적, 번역누적)"""
+    buffer = io.BytesIO()
+    wav_header = None
+    original_acc, translated_acc = "", ""
+    while True:
+        chunk = mic_stream.recv()          # bytes
+        if chunk is None:                  # 스트림 종료
+            break
+        if not wav_header:
+            wav_header = chunk[:44]        # WAV 헤더
+        buffer.write(chunk)
+        # chunk 길이가 STREAM_CHUNK_SEC 이상 쌓였으면 처리
+        if buffer.getbuffer().nbytes > 16000*2*STREAM_CHUNK_SEC:  # 16kHz 16-bit mono
+            wav_bytes = wav_header + buffer.getvalue()
+            with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
+                tmp.write(wav_bytes); tmp.close()
+                o, t, _ = translate_audio(tmp.name, src, tgt)
+            original_acc += " " + o
+            translated_acc += " " + t
+            yield original_acc.strip(), translated_acc.strip()
+            buffer = io.BytesIO()          # reset buffer
+    # 마지막 남은 버퍼
+    if buffer.getbuffer().nbytes:
+        wav_bytes = wav_header + buffer.getvalue()
+        with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
+            tmp.write(wav_bytes); tmp.close()
+            o, t, _ = translate_audio(tmp.name, src, tgt)
+        yield (original_acc+" "+o).strip(), (translated_acc+" "+t).strip()
+# =============== Gradio UI ==========================================
 with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
     with gr.Tabs():
+        # ① 마이크 번역 (녹음 후 일괄)
+        with gr.TabItem("🎙️ 마이크 번역"):
+            src1 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
+            tgt1 = gr.Dropdown(LANGUAGES,value="English",label="출력")
+            mic1  = gr.Audio(sources=["microphone"],type="filepath",label="🎤 녹음 후 Stop")
+            btn1  = gr.Button("번역")
+            stt1  = gr.Textbox(label="원문",lines=5)
+            tlt1  = gr.Textbox(label="번역",lines=5)
+            out1  = gr.Audio(label="TTS",type="filepath",autoplay=True)
+            btn1.click(translate_audio,inputs=[mic1,src1,tgt1],
+                       outputs=[stt1,tlt1,out1])
+        # ② 오디오 파일 번역
+        with gr.TabItem("🎧 파일 번역"):
+            src2 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
+            tgt2 = gr.Dropdown(LANGUAGES,value="English",label="출력")
+            file2= gr.Audio(sources=["upload"],type="filepath",label="오디오 파일 업로드")
+            btn2 = gr.Button("번역")
+            stt2 = gr.Textbox(label="원문",lines=5)
+            tlt2 = gr.Textbox(label="번역",lines=5)
+            out2 = gr.Audio(label="TTS",type="filepath",autoplay=True)
+            btn2.click(translate_audio,inputs=[file2,src2,tgt2],
+                       outputs=[stt2,tlt2,out2])
+        # ③ 실시간 스트리밍 전사·번역 (Beta)
+        with gr.TabItem("⏱️ 실시간 번역 (Beta)"):
+            gr.Markdown("마이크를 켜면 3-4초 단위로 자막이 갱신됩니다.")
+            src3 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
+            tgt3 = gr.Dropdown(LANGUAGES,value="English",label="출력")
+            mic3 = gr.Audio(sources=["microphone"],streaming=True,label="🎤 실시간")
+            stt3 = gr.Textbox(label="원문(실시간)",lines=8)
+            tlt3 = gr.Textbox(label="번역(실시간)",lines=8)
+            def gen(audio, src_lang, tgt_lang):
+                yield from stream_generator(audio, src_lang, tgt_lang)
+            mic3.stream(gen, inputs=[src3,tgt3], outputs=[stt3,tlt3])
 if __name__ == "__main__":
+    app.launch(server_name="0.0.0.0",server_port=7860,share=False,debug=True)