Spaces:

VIDraft
/

voice-trans

Running on Zero

App Files Files Community

openfree commited on Jun 9

Commit

32b3c75

verified ·

1 Parent(s): 7cce69a

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -30

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ import os
 import tempfile
 from dotenv import load_dotenv
-# ===== 공통 초기화 =====
 load_dotenv()
 api_key = os.getenv("OPENAI_API_KEY")
 if not api_key:
@@ -18,8 +18,35 @@ except Exception as e:
     print(f"❌ OpenAI 클라이언트 초기화 실패: {e}")
     client = None
 # ----------------------------------------------------------
-#  (1) 기존: 음성(STT) → 번역 → 음성(TTS)
 # ----------------------------------------------------------
 def translate_audio(audio_file, source_lang, target_lang):
     if not audio_file:
@@ -30,16 +57,19 @@ def translate_audio(audio_file, source_lang, target_lang):
         return "⚠️ 입력 언어와 출력 언어가 같습니다.", "", None
     try:
         with open(audio_file, "rb") as f:
             transcript = client.audio.transcriptions.create(
                 model="whisper-1",
                 file=f,
-                language=source_lang[:2].lower() if source_lang != "Chinese" else "zh"
             )
         original_text = transcript.text.strip()
         if not original_text:
             return "⚠️ 음성이 인식되지 않았습니다.", "", None
         response = client.chat.completions.create(
             model="gpt-3.5-turbo",
             messages=[
@@ -53,11 +83,10 @@ def translate_audio(audio_file, source_lang, target_lang):
         )
         translated_text = response.choices[0].message.content.strip()
-        voice_map = {"Korean": "nova", "English": "alloy", "Japanese": "nova",
-                     "Chinese": "nova", "Spanish": "nova", "French": "nova"}
         tts_response = client.audio.speech.create(
             model="tts-1",
-            voice=voice_map.get(target_lang, "alloy"),
             input=translated_text[:4096]
         )
         with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp:
@@ -69,9 +98,8 @@ def translate_audio(audio_file, source_lang, target_lang):
     except Exception as e:
         return f"❌ 오류: {type(e).__name__}: {str(e)}", "", None
 # ----------------------------------------------------------
-#  (2) 신규 탭: PDF / 이미지 → 번역 텍스트
 # ----------------------------------------------------------
 def translate_document(file_obj, source_lang, target_lang):
     if not file_obj:
@@ -83,12 +111,12 @@ def translate_document(file_obj, source_lang, target_lang):
     ext = os.path.splitext(file_obj.name)[1].lower()
     try:
-        # --- 원본 텍스트 추출 ---
         if ext == ".pdf":
             import pdfplumber
             text_chunks = []
             with pdfplumber.open(file_obj.name) as pdf:
-                for page in pdf.pages[:5]:        # 데모: 앞 5쪽만
                     text_chunks.append(page.extract_text() or "")
             original_text = "\n".join(text_chunks).strip()
@@ -121,13 +149,12 @@ def translate_document(file_obj, source_lang, target_lang):
     except Exception as e:
         return f"❌ 오류: {type(e).__name__}: {str(e)}", ""
 # ==========================================================
-# Gradio UI (Tabs 구조)
 # ==========================================================
 with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
     with gr.Tabs():
-        # ----- ① 기존 음성 번역 -----
         with gr.TabItem("🎙️ 음성 번역"):
             gr.Markdown("""
             # 🎙️ AI 음성 번역기
@@ -135,14 +162,8 @@ with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
             """)
             with gr.Row():
-                src_lang_a = gr.Dropdown(
-                    ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
-                    value="Korean", label="입력 언어"
-                )
-                tgt_lang_a = gr.Dropdown(
-                    ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
-                    value="English", label="출력 언어"
-                )
             audio_in = gr.Audio(
                 sources=["microphone", "upload"],
@@ -163,7 +184,7 @@ with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
                 outputs=[stt_text, tlt_text, audio_out]
             )
-        # ----- ② 신규 자료 번역 -----
         with gr.TabItem("📄 자료 번역"):
             gr.Markdown("""
             # 📄 PDF / 이미지 번역 데모
@@ -171,14 +192,8 @@ with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
             """)
             with gr.Row():
-                src_lang_d = gr.Dropdown(
-                    ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
-                    value="Korean", label="입력 언어"
-                )
-                tgt_lang_d = gr.Dropdown(
-                    ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
-                    value="English", label="출력 언어"
-                )
             file_in = gr.File(label="PDF / 이미지 업로드")
             btn_doc = gr.Button("🔄 번역하기")

 import tempfile
 from dotenv import load_dotenv
+# ===== 공통 초기화 =========================================
 load_dotenv()
 api_key = os.getenv("OPENAI_API_KEY")
 if not api_key:
     print(f"❌ OpenAI 클라이언트 초기화 실패: {e}")
     client = None
+# ===== 언어 설정 ===========================================
+LANGUAGES = [
+    "Korean", "English", "Japanese", "Chinese",  # 기존
+    "Thai", "Russian", "Vietnamese",             # 추가
+    "Spanish", "French"                          # 선택
+]
+# Whisper용 ISO-639 코드 매핑
+LANG_CODE_MAP = {
+    "Korean": "ko", "English": "en", "Japanese": "ja", "Chinese": "zh",
+    "Thai": "th", "Russian": "ru", "Vietnamese": "vi",
+    "Spanish": "es", "French": "fr"
+}
+# TTS 음성 매핑(OpenAI tts-1: alloy, nova 두 가지)
+VOICE_MAP = {
+    "Korean": "nova",
+    "English": "alloy",
+    "Japanese": "nova",
+    "Chinese": "nova",
+    "Thai": "alloy",
+    "Russian": "alloy",
+    "Vietnamese": "alloy",
+    "Spanish": "alloy",
+    "French": "alloy"
+}
 # ----------------------------------------------------------
+#  (1) 음성(STT) → 번역 → 음성(TTS)
 # ----------------------------------------------------------
 def translate_audio(audio_file, source_lang, target_lang):
     if not audio_file:
         return "⚠️ 입력 언어와 출력 언어가 같습니다.", "", None
     try:
+        # ---------- Whisper STT ----------
+        lang_code = LANG_CODE_MAP.get(source_lang, None)
         with open(audio_file, "rb") as f:
             transcript = client.audio.transcriptions.create(
                 model="whisper-1",
                 file=f,
+                language=lang_code if lang_code else None  # 못 찾으면 자동감지
             )
         original_text = transcript.text.strip()
         if not original_text:
             return "⚠️ 음성이 인식되지 않았습니다.", "", None
+        # ---------- GPT 번역 ----------
         response = client.chat.completions.create(
             model="gpt-3.5-turbo",
             messages=[
         )
         translated_text = response.choices[0].message.content.strip()
+        # ---------- TTS ----------
         tts_response = client.audio.speech.create(
             model="tts-1",
+            voice=VOICE_MAP.get(target_lang, "alloy"),
             input=translated_text[:4096]
         )
         with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp:
     except Exception as e:
         return f"❌ 오류: {type(e).__name__}: {str(e)}", "", None
 # ----------------------------------------------------------
+#  (2) PDF / 이미지 → 번역
 # ----------------------------------------------------------
 def translate_document(file_obj, source_lang, target_lang):
     if not file_obj:
     ext = os.path.splitext(file_obj.name)[1].lower()
     try:
+        # --- 텍스트 추출 ---
         if ext == ".pdf":
             import pdfplumber
             text_chunks = []
             with pdfplumber.open(file_obj.name) as pdf:
+                for page in pdf.pages[:5]:  # 데모: 앞 5쪽만
                     text_chunks.append(page.extract_text() or "")
             original_text = "\n".join(text_chunks).strip()
     except Exception as e:
         return f"❌ 오류: {type(e).__name__}: {str(e)}", ""
 # ==========================================================
+# Gradio UI
 # ==========================================================
 with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
     with gr.Tabs():
+        # ----- 🎙️ 음성 번역 -----
         with gr.TabItem("🎙️ 음성 번역"):
             gr.Markdown("""
             # 🎙️ AI 음성 번역기
             """)
             with gr.Row():
+                src_lang_a = gr.Dropdown(LANGUAGES, value="Korean", label="입력 언어")
+                tgt_lang_a = gr.Dropdown(LANGUAGES, value="English", label="출력 언어")
             audio_in = gr.Audio(
                 sources=["microphone", "upload"],
                 outputs=[stt_text, tlt_text, audio_out]
             )
+        # ----- 📄 자료 번역 -----
         with gr.TabItem("📄 자료 번역"):
             gr.Markdown("""
             # 📄 PDF / 이미지 번역 데모
             """)
             with gr.Row():
+                src_lang_d = gr.Dropdown(LANGUAGES, value="Korean", label="입력 언어")
+                tgt_lang_d = gr.Dropdown(LANGUAGES, value="English", label="출력 언어")
             file_in = gr.File(label="PDF / 이미지 업로드")
             btn_doc = gr.Button("🔄 번역하기")