Spaces:

VIDraft
/

voice-trans

Running on Zero

App Files Files Community

openfree commited on Jun 9

Commit

77b322a

verified ·

1 Parent(s): a2e646d

Update app.py

Browse files

Files changed (1) hide show

app.py +137 -27

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 import openai
 import os
 from dotenv import load_dotenv
 # 환경변수 로드
@@ -11,84 +12,187 @@ api_key = os.getenv("OPENAI_API_KEY")
 if not api_key:
     print("⚠️  OPENAI_API_KEY를 .env 파일에 설정하세요!")
     print("예: OPENAI_API_KEY=sk-...")
-client = openai.OpenAI(api_key=api_key)
 def translate_audio(audio_file, source_lang, target_lang):
     """음성 파일을 번역하는 함수"""
     if not audio_file:
-        return "오디오 파일을 업로드하거나 녹음하세요.", "", None
     if not api_key:
-        return "API 키가 설정되지 않았습니다.", "", None
     try:
         # 1. Whisper로 음성을 텍스트로 변환
         with open(audio_file, "rb") as f:
             transcript = client.audio.transcriptions.create(
                 model="whisper-1",
-                file=f
             )
         original_text = transcript.text
         # 2. GPT-4로 번역
         response = client.chat.completions.create(
-            model="gpt-4",
             messages=[
-                {"role": "system", "content": f"Translate from {source_lang} to {target_lang}. Only provide the translation without any explanation."},
-                {"role": "user", "content": original_text}
             ],
-            temperature=0.3
         )
-        translated_text = response.choices[0].message.content
         # 3. TTS로 번역된 텍스트를 음성으로 변환
         tts_response = client.audio.speech.create(
             model="tts-1",
-            voice="alloy",
-            input=translated_text
         )
-        # 음성 파일 저장
-        output_file = "translated_audio.mp3"
-        with open(output_file, "wb") as f:
-            f.write(tts_response.content)
         return original_text, translated_text, output_file
     except Exception as e:
-        return f"오류 발생: {str(e)}", "", None
 # Gradio 인터페이스
-with gr.Blocks(title="음성 번역기") as app:
-    gr.Markdown("# 🎙️ AI 음성 번역기")
-    gr.Markdown("음성을 녹음하거나 업로드하면 자동으로 번역합니다.")
     with gr.Row():
         source_lang = gr.Dropdown(
             ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
             value="Korean",
-            label="입력 언어"
         )
         target_lang = gr.Dropdown(
             ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
             value="English",
-            label="출력 언어"
         )
     audio_input = gr.Audio(
         sources=["microphone", "upload"],
         type="filepath",
-        label="음성 입력 (녹음 또는 파일 업로드)"
     )
-    translate_btn = gr.Button("번역하기", variant="primary")
     with gr.Row():
-        original_text = gr.Textbox(label="원본 텍스트", lines=3)
-        translated_text = gr.Textbox(label="번역된 텍스트", lines=3)
-    audio_output = gr.Audio(label="번역된 음성", type="filepath")
     translate_btn.click(
         translate_audio,
@@ -97,4 +201,10 @@ with gr.Blocks(title="음성 번역기") as app:
     )
 if __name__ == "__main__":
-    app.launch(server_name="0.0.0.0", server_port=7860, share=True)

 import gradio as gr
 import openai
 import os
+import tempfile
 from dotenv import load_dotenv
 # 환경변수 로드
 if not api_key:
     print("⚠️  OPENAI_API_KEY를 .env 파일에 설정하세요!")
     print("예: OPENAI_API_KEY=sk-...")
+else:
+    print(f"✅ API Key 로드됨: {api_key[:10]}...")
+try:
+    client = openai.OpenAI(api_key=api_key)
+except Exception as e:
+    print(f"❌ OpenAI 클라이언트 초기화 실패: {e}")
+    client = None
 def translate_audio(audio_file, source_lang, target_lang):
     """음성 파일을 번역하는 함수"""
+    # 입력 검증
     if not audio_file:
+        return "⚠️ 오디오 파일을 업로드하거나 녹음하세요.", "", None
     if not api_key:
+        return "❌ API 키가 설정되지 않았습니다. .env 파일을 확인하세요.", "", None
+    if not client:
+        return "❌ OpenAI 클라이언트가 초기화되지 않았습니다.", "", None
+    # 같은 언어로 번역하려는 경우
+    if source_lang == target_lang:
+        return "⚠️ 입력 언어와 출력 언어가 같습니다.", "", None
     try:
+        print(f"🎤 오디오 파일 처리 중: {audio_file}")
+        print(f"📊 파일 크기: {os.path.getsize(audio_file) / 1024 / 1024:.2f} MB")
         # 1. Whisper로 음성을 텍스트로 변환
+        print("1️⃣ 음성 인식 시작...")
         with open(audio_file, "rb") as f:
             transcript = client.audio.transcriptions.create(
                 model="whisper-1",
+                file=f,
+                language=source_lang[:2].lower() if source_lang != "Chinese" else "zh"
             )
         original_text = transcript.text
+        print(f"✅ 음성 인식 완료: {original_text[:50]}...")
+        # 빈 텍스트 체크
+        if not original_text.strip():
+            return "⚠️ 음성이 인식되지 않았습니다. 다시 녹음해주세요.", "", None
         # 2. GPT-4로 번역
+        print("2️⃣ 번역 시작...")
         response = client.chat.completions.create(
+            model="gpt-3.5-turbo",  # 더 빠르고 안정적
             messages=[
+                {
+                    "role": "system",
+                    "content": f"You are a professional translator. Translate the following {source_lang} text to {target_lang}. Only provide the translation without any explanation or additional text."
+                },
+                {
+                    "role": "user",
+                    "content": original_text
+                }
             ],
+            temperature=0.3,
+            max_tokens=2000
         )
+        translated_text = response.choices[0].message.content.strip()
+        print(f"✅ 번역 완료: {translated_text[:50]}...")
         # 3. TTS로 번역된 텍스트를 음성으로 변환
+        print("3️⃣ 음성 합성 시작...")
+        # 언어별 음성 선택
+        voice_map = {
+            "Korean": "nova",
+            "English": "alloy",
+            "Japanese": "nova",
+            "Chinese": "nova",
+            "Spanish": "nova",
+            "French": "nova"
+        }
+        voice = voice_map.get(target_lang, "alloy")
         tts_response = client.audio.speech.create(
             model="tts-1",
+            voice=voice,
+            input=translated_text[:4096]  # TTS 길이 제한
         )
+        # 임시 파일로 저장
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp_file:
+            tmp_file.write(tts_response.content)
+            output_file = tmp_file.name
+        print("✅ 모든 처리 완료!")
         return original_text, translated_text, output_file
+    except openai.APIError as e:
+        error_msg = f"❌ OpenAI API 오류: {str(e)}"
+        print(error_msg)
+        return error_msg, "", None
+    except openai.AuthenticationError:
+        error_msg = "❌ API 키가 올바르지 않습니다. .env 파일을 확인하세요."
+        print(error_msg)
+        return error_msg, "", None
+    except openai.RateLimitError:
+        error_msg = "❌ API 사용 한도를 초���했습니다. 잠시 후 다시 시도하세요."
+        print(error_msg)
+        return error_msg, "", None
     except Exception as e:
+        error_msg = f"❌ 예상치 못한 오류: {type(e).__name__}: {str(e)}"
+        print(error_msg)
+        import traceback
+        traceback.print_exc()
+        return error_msg, "", None
 # Gradio 인터페이스
+with gr.Blocks(title="음성 번역기", theme=gr.themes.Soft()) as app:
+    gr.Markdown(
+        """
+        # 🎙️ AI 음성 번역기
+        음성을 녹음하거나 업로드하면 자동으로 번역합니다.
+        **지원 형식**: MP3, WAV, M4A, WEBM (최대 25MB)
+        """
+    )
+    # API 키 상태 표시
+    if api_key:
+        gr.Markdown(f"✅ API 연결 상태: 정상 (키: {api_key[:10]}...)")
+    else:
+        gr.Markdown("❌ API 연결 상태: API 키를 설정하세요")
     with gr.Row():
         source_lang = gr.Dropdown(
             ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
             value="Korean",
+            label="입력 언어",
+            info="음성의 언어를 선택하세요"
         )
         target_lang = gr.Dropdown(
             ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
             value="English",
+            label="출력 언어",
+            info="번역할 언어를 선택하세요"
         )
     audio_input = gr.Audio(
         sources=["microphone", "upload"],
         type="filepath",
+        label="음성 입력 (녹음 또는 파일 업로드)",
+        info="마이크 버튼을 클릭하여 녹음하거나 파일을 드래그하세요"
     )
+    translate_btn = gr.Button("🔄 번역하기", variant="primary", size="lg")
     with gr.Row():
+        original_text = gr.Textbox(
+            label="📝 원본 텍스트",
+            lines=5,
+            placeholder="음성 인식 결과가 여기에 표시됩니다..."
+        )
+        translated_text = gr.Textbox(
+            label="🌐 번역된 텍스트",
+            lines=5,
+            placeholder="번역 결과가 여기에 표시됩니다..."
+        )
+    audio_output = gr.Audio(
+        label="🔊 번역된 음성",
+        type="filepath",
+        autoplay=True
+    )
+    # 예시
+    gr.Examples(
+        examples=[
+            ["Korean", "English"],
+            ["English", "Korean"],
+            ["Japanese", "English"],
+            ["Chinese", "Korean"]
+        ],
+        inputs=[source_lang, target_lang],
+        label="언어 조합 예시"
+    )
     translate_btn.click(
         translate_audio,
     )
 if __name__ == "__main__":
+    print("🚀 서버 시작 중...")
+    app.launch(
+        server_name="0.0.0.0",
+        server_port=7860,
+        share=False,  # 로컬에서만 실행
+        debug=True    # 디버그 모드 활성화
+    )