Spaces:

VIDraft
/

voice-trans

Running on Zero

App Files Files Community

openfree commited on Jun 9

Commit

7cce69a

verified ·

1 Parent(s): 4ce5e3d

Update app.py

Browse files

Files changed (1) hide show

app.py +144 -155

app.py CHANGED Viewed

@@ -4,14 +4,11 @@ import os
 import tempfile
 from dotenv import load_dotenv
-# 환경변수 로드
 load_dotenv()
-# OpenAI 클라이언트 설정
 api_key = os.getenv("OPENAI_API_KEY")
 if not api_key:
     print("⚠️  OPENAI_API_KEY를 .env 파일에 설정하세요!")
-    print("예: OPENAI_API_KEY=sk-...")
 else:
     print(f"✅ API Key 로드됨: {api_key[:10]}...")
@@ -21,189 +18,181 @@ except Exception as e:
     print(f"❌ OpenAI 클라이언트 초기화 실패: {e}")
     client = None
 def translate_audio(audio_file, source_lang, target_lang):
-    """음성 파일을 번역하는 함수"""
-    # 입력 검증
     if not audio_file:
         return "⚠️ 오디오 파일을 업로드하거나 녹음하세요.", "", None
-    if not api_key:
-        return "❌ API 키가 설정되지 않았습니다. .env 파일을 확인하세요.", "", None
-    if not client:
-        return "❌ OpenAI 클라이언트가 초기화되지 않았습니다.", "", None
-    # 같은 언어로 번역하려는 경우
     if source_lang == target_lang:
         return "⚠️ 입력 언어와 출력 언어가 같습니다.", "", None
     try:
-        print(f"🎤 오디오 파일 처리 중: {audio_file}")
-        print(f"📊 파일 크기: {os.path.getsize(audio_file) / 1024 / 1024:.2f} MB")
-        # 1. Whisper로 음성을 텍스트로 변환
-        print("1️⃣ 음성 인식 시작...")
         with open(audio_file, "rb") as f:
             transcript = client.audio.transcriptions.create(
                 model="whisper-1",
                 file=f,
                 language=source_lang[:2].lower() if source_lang != "Chinese" else "zh"
             )
-        original_text = transcript.text
-        print(f"✅ 음성 인식 완료: {original_text[:50]}...")
-        # 빈 텍스트 체크
-        if not original_text.strip():
-            return "⚠️ 음성이 인식되지 않았습니다. 다시 녹음해주세요.", "", None
-        # 2. GPT-4로 번역
-        print("2️⃣ 번역 시작...")
         response = client.chat.completions.create(
-            model="gpt-3.5-turbo",  # 더 빠르고 안정적
             messages=[
-                {
-                    "role": "system",
-                    "content": f"You are a professional translator. Translate the following {source_lang} text to {target_lang}. Only provide the translation without any explanation or additional text."
-                },
-                {
-                    "role": "user",
-                    "content": original_text
-                }
             ],
             temperature=0.3,
             max_tokens=2000
         )
         translated_text = response.choices[0].message.content.strip()
-        print(f"✅ 번역 완료: {translated_text[:50]}...")
-        # 3. TTS로 번역된 텍스트를 음성으로 변환
-        print("3️⃣ 음성 합성 시작...")
-        # 언어별 음성 선택
-        voice_map = {
-            "Korean": "nova",
-            "English": "alloy",
-            "Japanese": "nova",
-            "Chinese": "nova",
-            "Spanish": "nova",
-            "French": "nova"
-        }
-        voice = voice_map.get(target_lang, "alloy")
         tts_response = client.audio.speech.create(
             model="tts-1",
-            voice=voice,
-            input=translated_text[:4096]  # TTS 길이 제한
         )
-        # 임시 파일로 저장
-        with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp_file:
-            tmp_file.write(tts_response.content)
-            output_file = tmp_file.name
-        print("✅ 모든 처리 완료!")
-        return original_text, translated_text, output_file
-    except openai.APIError as e:
-        error_msg = f"❌ OpenAI API 오류: {str(e)}"
-        print(error_msg)
-        return error_msg, "", None
-    except openai.AuthenticationError:
-        error_msg = "❌ API 키가 올바르지 않습니다. .env 파일을 확인하세요."
-        print(error_msg)
-        return error_msg, "", None
-    except openai.RateLimitError:
-        error_msg = "❌ API 사용 한도를 초과했습니다. 잠시 후 다시 시도하세요."
-        print(error_msg)
-        return error_msg, "", None
     except Exception as e:
-        error_msg = f"❌ 예상치 못한 오류: {type(e).__name__}: {str(e)}"
-        print(error_msg)
-        import traceback
-        traceback.print_exc()
-        return error_msg, "", None
-# Gradio 인터페이스
-with gr.Blocks(title="음성 번역기", theme=gr.themes.Soft()) as app:
-    gr.Markdown(
-        """
-        # 🎙️ AI 음성 번역기
-        음성을 녹음하거나 업로드하면 자동으로 번역합니다.
-        **지원 형식**: MP3, WAV, M4A, WEBM (최대 25MB)
-        """
-    )
-    # API 키 상태 표시
-    if api_key:
-        gr.Markdown(f"✅ API 연결 상태: 정상 (키: {api_key[:10]}...)")
-    else:
-        gr.Markdown("❌ API 연결 상태: API 키를 설정하세요")
-    with gr.Row():
-        source_lang = gr.Dropdown(
-            ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
-            value="Korean",
-            label="입력 언어"
-        )
-        target_lang = gr.Dropdown(
-            ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
-            value="English",
-            label="출력 언어"
-        )
-    audio_input = gr.Audio(
-        sources=["microphone", "upload"],
-        type="filepath",
-        label="음성 입력 (녹음 또는 파일 업로드)"
-    )
-    translate_btn = gr.Button("🔄 번역하기")
-    with gr.Row():
-        original_text = gr.Textbox(
-            label="📝 원본 텍스트",
-            lines=5,
-            placeholder="음성 인식 결과가 여기에 표시됩니다..."
-        )
-        translated_text = gr.Textbox(
-            label="🌐 번역된 텍스트",
-            lines=5,
-            placeholder="번역 결과가 여기에 표시됩니다..."
         )
-    audio_output = gr.Audio(
-        label="🔊 번역된 음성",
-        type="filepath",
-        autoplay=True
-    )
-    # 예시
-    gr.Examples(
-        examples=[
-            ["Korean", "English"],
-            ["English", "Korean"],
-            ["Japanese", "English"],
-            ["Chinese", "Korean"]
-        ],
-        inputs=[source_lang, target_lang],
-        label="언어 조합 예시"
-    )
-    translate_btn.click(
-        translate_audio,
-        inputs=[audio_input, source_lang, target_lang],
-        outputs=[original_text, translated_text, audio_output]
-    )
 if __name__ == "__main__":
     print("🚀 서버 시작 중...")
-    app.launch(
-        server_name="0.0.0.0",
-        server_port=7860,
-        share=False,  # 로컬에서만 실행
-        debug=True    # 디버그 모드 활성화
-    )

 import tempfile
 from dotenv import load_dotenv
+# ===== 공통 초기화 =====
 load_dotenv()
 api_key = os.getenv("OPENAI_API_KEY")
 if not api_key:
     print("⚠️  OPENAI_API_KEY를 .env 파일에 설정하세요!")
 else:
     print(f"✅ API Key 로드됨: {api_key[:10]}...")
     print(f"❌ OpenAI 클라이언트 초기화 실패: {e}")
     client = None
+# ----------------------------------------------------------
+#  (1) 기존: 음성(STT) → 번역 → 음성(TTS)
+# ----------------------------------------------------------
 def translate_audio(audio_file, source_lang, target_lang):
     if not audio_file:
         return "⚠️ 오디오 파일을 업로드하거나 녹음하세요.", "", None
+    if not api_key or not client:
+        return "❌ API 초기화 오류", "", None
     if source_lang == target_lang:
         return "⚠️ 입력 언어와 출력 언어가 같습니다.", "", None
     try:
         with open(audio_file, "rb") as f:
             transcript = client.audio.transcriptions.create(
                 model="whisper-1",
                 file=f,
                 language=source_lang[:2].lower() if source_lang != "Chinese" else "zh"
             )
+        original_text = transcript.text.strip()
+        if not original_text:
+            return "⚠️ 음성이 인식되지 않았습니다.", "", None
         response = client.chat.completions.create(
+            model="gpt-3.5-turbo",
             messages=[
+                {"role": "system",
+                 "content": f"You are a professional translator. Translate the following {source_lang} text to {target_lang}. "
+                            f"Only provide the translation without any explanation or additional text."},
+                {"role": "user", "content": original_text}
             ],
             temperature=0.3,
             max_tokens=2000
         )
         translated_text = response.choices[0].message.content.strip()
+        voice_map = {"Korean": "nova", "English": "alloy", "Japanese": "nova",
+                     "Chinese": "nova", "Spanish": "nova", "French": "nova"}
         tts_response = client.audio.speech.create(
             model="tts-1",
+            voice=voice_map.get(target_lang, "alloy"),
+            input=translated_text[:4096]
         )
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp:
+            tmp.write(tts_response.content)
+            output_audio = tmp.name
+        return original_text, translated_text, output_audio
     except Exception as e:
+        return f"❌ 오류: {type(e).__name__}: {str(e)}", "", None
+# ----------------------------------------------------------
+#  (2) 신규 탭: PDF / 이미지 → 번역 텍스트
+# ----------------------------------------------------------
+def translate_document(file_obj, source_lang, target_lang):
+    if not file_obj:
+        return "⚠️ 파일을 업로드하세요.", ""
+    if not api_key or not client:
+        return "❌ API 초기화 오류", ""
+    if source_lang == target_lang:
+        return "⚠️ 입력 언어와 출력 언어가 같습니다.", ""
+    ext = os.path.splitext(file_obj.name)[1].lower()
+    try:
+        # --- 원본 텍스트 추출 ---
+        if ext == ".pdf":
+            import pdfplumber
+            text_chunks = []
+            with pdfplumber.open(file_obj.name) as pdf:
+                for page in pdf.pages[:5]:        # 데모: 앞 5쪽만
+                    text_chunks.append(page.extract_text() or "")
+            original_text = "\n".join(text_chunks).strip()
+        elif ext in [".png", ".jpg", ".jpeg", ".webp", ".bmp", ".tiff"]:
+            from PIL import Image
+            import pytesseract
+            original_text = pytesseract.image_to_string(Image.open(file_obj.name))
+        else:
+            return "⚠️ 지원하지 않는 형식입니다.", ""
+        if not original_text:
+            return "⚠️ 텍스트를 추출할 수 없습니다.", ""
+        # --- 번역 ---
+        response = client.chat.completions.create(
+            model="gpt-3.5-turbo",
+            messages=[
+                {"role": "system",
+                 "content": f"You are a professional translator. Translate the following {source_lang} text to {target_lang}. "
+                            f"Only provide the translation without any explanation or additional text."},
+                {"role": "user", "content": original_text}
+            ],
+            temperature=0.3,
+            max_tokens=4096
         )
+        translated_text = response.choices[0].message.content.strip()
+        return original_text, translated_text
+    except Exception as e:
+        return f"❌ 오류: {type(e).__name__}: {str(e)}", ""
+# ==========================================================
+# Gradio UI (Tabs 구조)
+# ==========================================================
+with gr.Blocks(title="SMARTok Demo", theme=gr.themes.Soft()) as app:
+    with gr.Tabs():
+        # ----- ① 기존 음성 번역 -----
+        with gr.TabItem("🎙️ 음성 번역"):
+            gr.Markdown("""
+            # 🎙️ AI 음성 번역기
+            마이크로 녹음하거나 오디오 파일을 업로드하면 **실시간 자막 + 번역 + 음성합성**까지 한 번에!
+            """)
+            with gr.Row():
+                src_lang_a = gr.Dropdown(
+                    ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
+                    value="Korean", label="입력 언어"
+                )
+                tgt_lang_a = gr.Dropdown(
+                    ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
+                    value="English", label="출력 언어"
+                )
+            audio_in = gr.Audio(
+                sources=["microphone", "upload"],
+                type="filepath",
+                label="음성 입력 (녹음 또는 파일 업로드)"
+            )
+            btn_audio = gr.Button("🔄 번역하기")
+            with gr.Row():
+                stt_text = gr.Textbox(label="📝 원본 텍스트", lines=5)
+                tlt_text = gr.Textbox(label="🌐 번역된 텍스트", lines=5)
+            audio_out = gr.Audio(label="🔊 번역된 음성", type="filepath", autoplay=True)
+            btn_audio.click(
+                translate_audio,
+                inputs=[audio_in, src_lang_a, tgt_lang_a],
+                outputs=[stt_text, tlt_text, audio_out]
+            )
+        # ----- ② 신규 자료 번역 -----
+        with gr.TabItem("📄 자료 번역"):
+            gr.Markdown("""
+            # 📄 PDF / 이미지 번역 데모
+            교육자료·발표자료 등 **PDF 최대 5쪽** 또는 이미지 1장을 업로드하면 텍스트 추출 후 번역해줍니다.
+            """)
+            with gr.Row():
+                src_lang_d = gr.Dropdown(
+                    ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
+                    value="Korean", label="입력 언어"
+                )
+                tgt_lang_d = gr.Dropdown(
+                    ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
+                    value="English", label="출력 언어"
+                )
+            file_in = gr.File(label="PDF / 이미지 업로드")
+            btn_doc = gr.Button("🔄 번역하기")
+            original_doc = gr.Textbox(label="📝 추출된 원문", lines=15)
+            translated_doc = gr.Textbox(label="🌐 번역 결과", lines=15)
+            btn_doc.click(
+                translate_document,
+                inputs=[file_in, src_lang_d, tgt_lang_d],
+                outputs=[original_doc, translated_doc]
+            )
+# ==========================================================
 if __name__ == "__main__":
     print("🚀 서버 시작 중...")
+    app.launch(server_name="0.0.0.0", server_port=7860, share=False, debug=True)