Spaces:

VIDraft
/

voice-trans

Running

App Files Files Community

openfree commited on Jun 9

Commit

5897b48

verified ·

1 Parent(s): a609646

Update app.py

Browse files

Files changed (1) hide show

app.py +133 -57

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import gradio as gr
-import openai, os, io, tempfile, wave, time, threading
 from dotenv import load_dotenv
 # =============== 공통 초기화 ========================================
@@ -9,55 +9,72 @@ if not api_key:
     raise RuntimeError("OPENAI_API_KEY를 .env 파일에 설정하세요!")
 client = openai.OpenAI(api_key=api_key)
 LANGUAGES = [
     "Korean", "English", "Japanese", "Chinese",
     "Thai", "Russian", "Vietnamese",
     "Spanish", "French"
 ]
-LANG_CODE = {"Korean":"ko","English":"en","Japanese":"ja","Chinese":"zh",
-             "Thai":"th","Russian":"ru","Vietnamese":"vi",
-             "Spanish":"es","French":"fr"}
-VOICE = {lang: ("nova" if lang in ["Korean","Japanese","Chinese"] else "alloy")
-         for lang in LANGUAGES}
-# ---------------- 공통 번역/합성 ------------------------------------
-def _gpt_translate(text, src, tgt):
     rsp = client.chat.completions.create(
         model="gpt-3.5-turbo",
         messages=[
-            {"role":"system",
-             "content":f"You are a professional translator. Translate {src} to {tgt}. "
-                       f"Only give the translated text."},
-            {"role":"user","content":text}
         ],
-        temperature=0.3,max_tokens=2048)
     return rsp.choices[0].message.content.strip()
-def _tts(text, lang):
-    out = client.audio.speech.create(model="tts-1",
-                                     voice=VOICE.get(lang,"alloy"),
-                                     input=text[:4096])
-    tmp = tempfile.NamedTemporaryFile(delete=False,suffix=".mp3")
-    tmp.write(out.content); tmp.close()
     return tmp.name
 # =============== 1) 마이크·파일 공통 처리 ============================
 def translate_audio(audio_path, src, tgt):
     """wav/mp3 경로 -> (원문, 번역문, 번역 TTS 경로)"""
-    with open(audio_path,"rb") as f:
         stt = client.audio.transcriptions.create(
             model="whisper-1",
             file=f,
-            language=LANG_CODE.get(src))
     original = stt.text.strip()
     if not original:
         return "⚠️ 음성 인식 실패", "", None
     translated = _gpt_translate(original, src, tgt)
     tts_path = _tts(translated, tgt)
     return original, translated, tts_path
 # =============== 2) 실시간 스트리밍(베타) ============================
-STREAM_CHUNK_SEC = 4       # 4초마다 Whisper 호출
 def stream_generator(mic_stream, src, tgt):
     """generator: 매 chunk마다 yield (원문누적, 번역누적)"""
     buffer = io.BytesIO()
@@ -68,67 +85,126 @@ def stream_generator(mic_stream, src, tgt):
         chunk = mic_stream.recv()          # bytes
         if chunk is None:                  # 스트림 종료
             break
         if not wav_header:
-            wav_header = chunk[:44]        # WAV 헤더
         buffer.write(chunk)
-        # chunk 길이가 STREAM_CHUNK_SEC 이상 쌓였으면 처리
-        if buffer.getbuffer().nbytes > 16000*2*STREAM_CHUNK_SEC:  # 16kHz 16-bit mono
             wav_bytes = wav_header + buffer.getvalue()
-            with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
-                tmp.write(wav_bytes); tmp.close()
                 o, t, _ = translate_audio(tmp.name, src, tgt)
             original_acc += " " + o
             translated_acc += " " + t
             yield original_acc.strip(), translated_acc.strip()
             buffer = io.BytesIO()          # reset buffer
-    # 마지막 남은 버퍼
     if buffer.getbuffer().nbytes:
         wav_bytes = wav_header + buffer.getvalue()
-        with tempfile.NamedTemporaryFile(delete=False,suffix=".wav") as tmp:
-            tmp.write(wav_bytes); tmp.close()
             o, t, _ = translate_audio(tmp.name, src, tgt)
-        yield (original_acc+" "+o).strip(), (translated_acc+" "+t).strip()
 # =============== Gradio UI ==========================================
 with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
     with gr.Tabs():
         # ① 마이크 번역 (녹음 후 일괄)
         with gr.TabItem("🎙️ 마이크 번역"):
-            src1 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
-            tgt1 = gr.Dropdown(LANGUAGES,value="English",label="출력")
-            mic1  = gr.Audio(sources=["microphone"],type="filepath",label="🎤 녹음 후 Stop")
-            btn1  = gr.Button("번역")
-            stt1  = gr.Textbox(label="원문",lines=5)
-            tlt1  = gr.Textbox(label="번역",lines=5)
-            out1  = gr.Audio(label="TTS",type="filepath",autoplay=True)
-            btn1.click(translate_audio,inputs=[mic1,src1,tgt1],
-                       outputs=[stt1,tlt1,out1])
         # ② 오디오 파일 번역
         with gr.TabItem("🎧 파일 번역"):
-            src2 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
-            tgt2 = gr.Dropdown(LANGUAGES,value="English",label="출력")
-            file2= gr.Audio(sources=["upload"],type="filepath",label="오디오 파일 업로드")
             btn2 = gr.Button("번역")
-            stt2 = gr.Textbox(label="원문",lines=5)
-            tlt2 = gr.Textbox(label="번역",lines=5)
-            out2 = gr.Audio(label="TTS",type="filepath",autoplay=True)
-            btn2.click(translate_audio,inputs=[file2,src2,tgt2],
-                       outputs=[stt2,tlt2,out2])
         # ③ 실시간 스트리밍 전사·번역 (Beta)
         with gr.TabItem("⏱️ 실시간 번역 (Beta)"):
-            gr.Markdown("마이크를 켜면 3-4초 단위로 자막이 갱신됩니다.")
-            src3 = gr.Dropdown(LANGUAGES,value="Korean",label="입력")
-            tgt3 = gr.Dropdown(LANGUAGES,value="English",label="출력")
-            mic3 = gr.Audio(sources=["microphone"],streaming=True,label="🎤 실시간")
-            stt3 = gr.Textbox(label="원문(실시간)",lines=8)
-            tlt3 = gr.Textbox(label="번역(실시간)",lines=8)
             def gen(audio, src_lang, tgt_lang):
                 yield from stream_generator(audio, src_lang, tgt_lang)
-            mic3.stream(gen, inputs=[src3,tgt3], outputs=[stt3,tlt3])
 if __name__ == "__main__":
-    app.launch(server_name="0.0.0.0",server_port=7860,share=False,debug=True)

 import gradio as gr
+import openai, os, io, tempfile, wave, time
 from dotenv import load_dotenv
 # =============== 공통 초기화 ========================================
     raise RuntimeError("OPENAI_API_KEY를 .env 파일에 설정하세요!")
 client = openai.OpenAI(api_key=api_key)
+# ---------- 지원 언어 -----------------------------------------------
 LANGUAGES = [
     "Korean", "English", "Japanese", "Chinese",
     "Thai", "Russian", "Vietnamese",
     "Spanish", "French"
 ]
+LANG_CODE = {
+    "Korean": "ko", "English": "en", "Japanese": "ja", "Chinese": "zh",
+    "Thai": "th", "Russian": "ru", "Vietnamese": "vi",
+    "Spanish": "es", "French": "fr"
+}
+VOICE = {
+    lang: ("nova" if lang in ["Korean", "Japanese", "Chinese"] else "alloy")
+    for lang in LANGUAGES
+}
+# ---------- 공통 유틸 -----------------------------------------------
+def _gpt_translate(text: str, src: str, tgt: str) -> str:
     rsp = client.chat.completions.create(
         model="gpt-3.5-turbo",
         messages=[
+            {
+                "role": "system",
+                "content": (
+                    f"You are a professional translator. Translate the following {src} text to {tgt}. "
+                    f"Only provide the translation without additional commentary."
+                )
+            },
+            {"role": "user", "content": text}
         ],
+        temperature=0.3,
+        max_tokens=2048
+    )
     return rsp.choices[0].message.content.strip()
+def _tts(text: str, lang: str) -> str:
+    out = client.audio.speech.create(
+        model="tts-1",
+        voice=VOICE.get(lang, "alloy"),
+        input=text[:4096]
+    )
+    tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
+    tmp.write(out.content)
+    tmp.close()
     return tmp.name
 # =============== 1) 마이크·파일 공통 처리 ============================
 def translate_audio(audio_path, src, tgt):
     """wav/mp3 경로 -> (원문, 번역문, 번역 TTS 경로)"""
+    with open(audio_path, "rb") as f:
         stt = client.audio.transcriptions.create(
             model="whisper-1",
             file=f,
+            language=LANG_CODE.get(src)
+        )
     original = stt.text.strip()
     if not original:
         return "⚠️ 음성 인식 실패", "", None
     translated = _gpt_translate(original, src, tgt)
     tts_path = _tts(translated, tgt)
     return original, translated, tts_path
 # =============== 2) 실시간 스트리밍(베타) ============================
+STREAM_CHUNK_SEC = 4  # 4초마다 Whisper 호출
 def stream_generator(mic_stream, src, tgt):
     """generator: 매 chunk마다 yield (원문누적, 번역누적)"""
     buffer = io.BytesIO()
         chunk = mic_stream.recv()          # bytes
         if chunk is None:                  # 스트림 종료
             break
         if not wav_header:
+            wav_header = chunk[:44]        # WAV 헤더(PCM 16kHz 16bit mono)
         buffer.write(chunk)
+        if buffer.getbuffer().nbytes > 16000 * 2 * STREAM_CHUNK_SEC:
             wav_bytes = wav_header + buffer.getvalue()
+            with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
+                tmp.write(wav_bytes)
+                tmp.close()
                 o, t, _ = translate_audio(tmp.name, src, tgt)
             original_acc += " " + o
             translated_acc += " " + t
             yield original_acc.strip(), translated_acc.strip()
             buffer = io.BytesIO()          # reset buffer
+    # 남은 데이터 처리
     if buffer.getbuffer().nbytes:
         wav_bytes = wav_header + buffer.getvalue()
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
+            tmp.write(wav_bytes)
+            tmp.close()
             o, t, _ = translate_audio(tmp.name, src, tgt)
+        yield (original_acc + " " + o).strip(), (translated_acc + " " + t).strip()
+# =============== 3) 4개국어 동시 번역 ===============================
+FOUR_LANGS = ["English", "Chinese", "Thai", "Russian"]
+def translate_audio_four(audio_path, src):
+    """한 번의 STT 후 4개 언어(영/중/태/러)로 동시 번역"""
+    with open(audio_path, "rb") as f:
+        stt = client.audio.transcriptions.create(
+            model="whisper-1",
+            file=f,
+            language=LANG_CODE.get(src)
+        )
+    original = stt.text.strip()
+    if not original:
+        return ["⚠️ 음성 인식 실패"] + [""] * 4
+    outputs = [original]
+    for lang in FOUR_LANGS:
+        outputs.append(_gpt_translate(original, src, lang))
+    return outputs  # 총 5개 (원문 + 4언어)
 # =============== Gradio UI ==========================================
 with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
     with gr.Tabs():
         # ① 마이크 번역 (녹음 후 일괄)
         with gr.TabItem("🎙️ 마이크 번역"):
+            src1 = gr.Dropdown(LANGUAGES, value="Korean", label="입력")
+            tgt1 = gr.Dropdown(LANGUAGES, value="English", label="출력")
+            mic1 = gr.Audio(sources=["microphone"], type="filepath", label="🎤 녹음 후 Stop")
+            btn1 = gr.Button("번역")
+            stt1 = gr.Textbox(label="원문", lines=5)
+            tlt1 = gr.Textbox(label="번역", lines=5)
+            out1 = gr.Audio(label="TTS", type="filepath", autoplay=True)
+            btn1.click(
+                translate_audio,
+                inputs=[mic1, src1, tgt1],
+                outputs=[stt1, tlt1, out1]
+            )
         # ② 오디오 파일 번역
         with gr.TabItem("🎧 파일 번역"):
+            src2 = gr.Dropdown(LANGUAGES, value="Korean", label="입력")
+            tgt2 = gr.Dropdown(LANGUAGES, value="English", label="출력")
+            file2 = gr.Audio(sources=["upload"], type="filepath", label="오디오 파일 업로드")
             btn2 = gr.Button("번역")
+            stt2 = gr.Textbox(label="원문", lines=5)
+            tlt2 = gr.Textbox(label="번역", lines=5)
+            out2 = gr.Audio(label="TTS", type="filepath", autoplay=True)
+            btn2.click(
+                translate_audio,
+                inputs=[file2, src2, tgt2],
+                outputs=[stt2, tlt2, out2]
+            )
         # ③ 실시간 스트리밍 전사·번역 (Beta)
         with gr.TabItem("⏱️ 실시간 번역 (Beta)"):
+            gr.Markdown("마이크를 켜면 3~4초 단위로 자막이 갱신됩니다.")
+            src3 = gr.Dropdown(LANGUAGES, value="Korean", label="입력")
+            tgt3 = gr.Dropdown(LANGUAGES, value="English", label="출력")
+            mic3 = gr.Audio(sources=["microphone"], streaming=True, label="🎤 실시간")
+            stt3 = gr.Textbox(label="원문(실시간)", lines=8)
+            tlt3 = gr.Textbox(label="번역(실시간)", lines=8)
             def gen(audio, src_lang, tgt_lang):
                 yield from stream_generator(audio, src_lang, tgt_lang)
+            mic3.stream(gen, inputs=[src3, tgt3], outputs=[stt3, tlt3])
+        # ④ 4개국어 동시 번역
+        with gr.TabItem("🌏 4개 언어 동시"):
+            gr.Markdown("입력 음성을 **English / Chinese(简体) / Thai / Russian** 로 동시에 번역합니다.")
+            src4 = gr.Dropdown(LANGUAGES, value="Korean", label="입력 언어")
+            aud4 = gr.Audio(
+                sources=["microphone", "upload"],
+                type="filepath",
+                label="🎤 녹음 또는 파일 업로드"
+            )
+            btn4 = gr.Button("번역")
+            with gr.Row():
+                org4 = gr.Textbox(label="원문", lines=4)
+                en4 = gr.Textbox(label="English", lines=4)
+                zh4 = gr.Textbox(label="Chinese (简体)", lines=4)
+                th4 = gr.Textbox(label="Thai", lines=4)
+                ru4 = gr.Textbox(label="Russian", lines=4)
+            btn4.click(
+                translate_audio_four,
+                inputs=[aud4, src4],
+                outputs=[org4, en4, zh4, th4, ru4]
+            )
+# ===================== 실행 ==========================================
 if __name__ == "__main__":
+    app.launch(server_name="0.0.0.0", server_port=7860, share=False, debug=True)