Spaces:

VIDraft
/

voice-trans

Running on Zero

App Files Files Community

openfree commited on Jun 9

Commit

707ae79

verified ·

1 Parent(s): bf7c5d7

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -36

app.py CHANGED Viewed

@@ -21,27 +21,28 @@ except Exception as e:
     print(f"❌ OpenAI 클라이언트 초기화 실패: {e}")
     client = None
 def translate_audio(audio_file, source_lang, target_lang):
     """음성 파일을 번역하는 함수"""
     # 입력 검증
     if not audio_file:
         return "⚠️ 오디오 파일을 업로드하거나 녹음하세요.", "", None
     if not api_key:
         return "❌ API 키가 설정되지 않았습니다. .env 파일을 확인하세요.", "", None
     if not client:
         return "❌ OpenAI 클라이언트가 초기화되지 않았습니다.", "", None
     # 같은 언어로 번역하려는 경우
     if source_lang == target_lang:
         return "⚠️ 입력 언어와 출력 언어가 같습니다.", "", None
     try:
         print(f"🎤 오디오 파일 처리 중: {audio_file}")
         print(f"📊 파일 크기: {os.path.getsize(audio_file) / 1024 / 1024:.2f} MB")
         # 1. Whisper로 음성을 텍스트로 변환
         print("1️⃣ 음성 인식 시작...")
         with open(audio_file, "rb") as f:
@@ -52,22 +53,22 @@ def translate_audio(audio_file, source_lang, target_lang):
             )
         original_text = transcript.text
         print(f"✅ 음성 인식 완료: {original_text[:50]}...")
         # 빈 텍스트 체크
         if not original_text.strip():
             return "⚠️ 음성이 인식되지 않았습니다. 다시 녹음해주세요.", "", None
         # 2. GPT-4로 번역
         print("2️⃣ 번역 시작...")
         response = client.chat.completions.create(
             model="gpt-3.5-turbo",  # 더 빠르고 안정적
             messages=[
                 {
-                    "role": "system",
                     "content": f"You are a professional translator. Translate the following {source_lang} text to {target_lang}. Only provide the translation without any explanation or additional text."
                 },
                 {
-                    "role": "user",
                     "content": original_text
                 }
             ],
@@ -76,10 +77,10 @@ def translate_audio(audio_file, source_lang, target_lang):
         )
         translated_text = response.choices[0].message.content.strip()
         print(f"✅ 번역 완료: {translated_text[:50]}...")
         # 3. TTS로 번역된 텍스트를 음성으로 변환
         print("3️⃣ 음성 합성 시작...")
         # 언어별 음성 선택
         voice_map = {
             "Korean": "nova",
@@ -90,21 +91,21 @@ def translate_audio(audio_file, source_lang, target_lang):
             "French": "nova"
         }
         voice = voice_map.get(target_lang, "alloy")
         tts_response = client.audio.speech.create(
             model="tts-1",
             voice=voice,
             input=translated_text[:4096]  # TTS 길이 제한
         )
         # 임시 파일로 저장
         with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp_file:
             tmp_file.write(tts_response.content)
             output_file = tmp_file.name
         print("✅ 모든 처리 완료!")
         return original_text, translated_text, output_file
     except openai.APIError as e:
         error_msg = f"❌ OpenAI API 오류: {str(e)}"
         print(error_msg)
@@ -124,6 +125,7 @@ def translate_audio(audio_file, source_lang, target_lang):
         traceback.print_exc()
         return error_msg, "", None
 # Gradio 인터페이스
 with gr.Blocks(title="음성 번역기", theme=gr.themes.Soft()) as app:
     gr.Markdown(
@@ -134,36 +136,33 @@ with gr.Blocks(title="음성 번역기", theme=gr.themes.Soft()) as app:
         **지원 형식**: MP3, WAV, M4A, WEBM (최대 25MB)
         """
     )
     # API 키 상태 표시
     if api_key:
         gr.Markdown(f"✅ API 연결 상태: 정상 (키: {api_key[:10]}...)")
     else:
         gr.Markdown("❌ API 연결 상태: API 키를 설정하세요")
     with gr.Row():
         source_lang = gr.Dropdown(
             ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
             value="Korean",
-            label="입력 언어",
-            info="음성의 언어를 선택하세요"
         )
         target_lang = gr.Dropdown(
             ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
             value="English",
-            label="출력 언어",
-            info="번역할 언어를 선택하세요"
         )
     audio_input = gr.Audio(
         sources=["microphone", "upload"],
         type="filepath",
-        label="음성 입력 (녹음 또는 파일 업로드)",
-        info="마이크 버튼을 클릭하여 녹음하거나 파일을 드래그하세요"
     )
-    translate_btn = gr.Button("🔄 번역하기", variant="primary", size="lg")
     with gr.Row():
         original_text = gr.Textbox(
             label="📝 원본 텍스트",
@@ -176,15 +175,12 @@ with gr.Blocks(title="음성 번역기", theme=gr.themes.Soft()) as app:
             placeholder="번역 결과가 여기에 표시됩니다..."
         )
-    audio_input = gr.Audio(
-        sources=["microphone", "upload"],
         type="filepath",
-        label="음성 입력 (녹음 또는 파일 업로드)"
-        # info 파라미터 제거
     )
     # 예시
     gr.Examples(
         examples=[
@@ -196,7 +192,7 @@ with gr.Blocks(title="음성 번역기", theme=gr.themes.Soft()) as app:
         inputs=[source_lang, target_lang],
         label="언어 조합 예시"
     )
     translate_btn.click(
         translate_audio,
         inputs=[audio_input, source_lang, target_lang],
@@ -210,4 +206,4 @@ if __name__ == "__main__":
         server_port=7860,
         share=False,  # 로컬에서만 실행
         debug=True    # 디버그 모드 활성화
-    )

     print(f"❌ OpenAI 클라이언트 초기화 실패: {e}")
     client = None
 def translate_audio(audio_file, source_lang, target_lang):
     """음성 파일을 번역하는 함수"""
     # 입력 검증
     if not audio_file:
         return "⚠️ 오디오 파일을 업로드하거나 녹음하세요.", "", None
     if not api_key:
         return "❌ API 키가 설정되지 않았습니다. .env 파일을 확인하세요.", "", None
     if not client:
         return "❌ OpenAI 클라이언트가 초기화되지 않았습니다.", "", None
     # 같은 언어로 번역하려는 경우
     if source_lang == target_lang:
         return "⚠️ 입력 언어와 출력 언어가 같습니다.", "", None
     try:
         print(f"🎤 오디오 파일 처리 중: {audio_file}")
         print(f"📊 파일 크기: {os.path.getsize(audio_file) / 1024 / 1024:.2f} MB")
         # 1. Whisper로 음성을 텍스트로 변환
         print("1️⃣ 음성 인식 시작...")
         with open(audio_file, "rb") as f:
             )
         original_text = transcript.text
         print(f"✅ 음성 인식 완료: {original_text[:50]}...")
         # 빈 텍스트 체크
         if not original_text.strip():
             return "⚠️ 음성이 인식되지 않았습니다. 다시 녹음해주세요.", "", None
         # 2. GPT-4로 번역
         print("2️⃣ 번역 시작...")
         response = client.chat.completions.create(
             model="gpt-3.5-turbo",  # 더 빠르고 안정적
             messages=[
                 {
+                    "role": "system",
                     "content": f"You are a professional translator. Translate the following {source_lang} text to {target_lang}. Only provide the translation without any explanation or additional text."
                 },
                 {
+                    "role": "user",
                     "content": original_text
                 }
             ],
         )
         translated_text = response.choices[0].message.content.strip()
         print(f"✅ 번역 완료: {translated_text[:50]}...")
         # 3. TTS로 번역된 텍스트를 음성으로 변환
         print("3️⃣ 음성 합성 시작...")
         # 언어별 음성 선택
         voice_map = {
             "Korean": "nova",
             "French": "nova"
         }
         voice = voice_map.get(target_lang, "alloy")
         tts_response = client.audio.speech.create(
             model="tts-1",
             voice=voice,
             input=translated_text[:4096]  # TTS 길이 제한
         )
         # 임시 파일로 저장
         with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp_file:
             tmp_file.write(tts_response.content)
             output_file = tmp_file.name
         print("✅ 모든 처리 완료!")
         return original_text, translated_text, output_file
     except openai.APIError as e:
         error_msg = f"❌ OpenAI API 오류: {str(e)}"
         print(error_msg)
         traceback.print_exc()
         return error_msg, "", None
 # Gradio 인터페이스
 with gr.Blocks(title="음성 번역기", theme=gr.themes.Soft()) as app:
     gr.Markdown(
         **지원 형식**: MP3, WAV, M4A, WEBM (최대 25MB)
         """
     )
     # API 키 상태 표시
     if api_key:
         gr.Markdown(f"✅ API 연결 상태: 정상 (키: {api_key[:10]}...)")
     else:
         gr.Markdown("❌ API 연결 상태: API 키를 설정하세요")
     with gr.Row():
         source_lang = gr.Dropdown(
             ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
             value="Korean",
+            label="입력 언어"
         )
         target_lang = gr.Dropdown(
             ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
             value="English",
+            label="출력 언어"
         )
     audio_input = gr.Audio(
         sources=["microphone", "upload"],
         type="filepath",
+        label="음성 입력 (녹음 또는 파일 업���드)"
     )
+    translate_btn = gr.Button("🔄 번역하기")
     with gr.Row():
         original_text = gr.Textbox(
             label="📝 원본 텍스트",
             placeholder="번역 결과가 여기에 표시됩니다..."
         )
+    audio_output = gr.Audio(
+        label="🔊 번역된 음성",
         type="filepath",
+        autoplay=True
     )
     # 예시
     gr.Examples(
         examples=[
         inputs=[source_lang, target_lang],
         label="언어 조합 예시"
     )
     translate_btn.click(
         translate_audio,
         inputs=[audio_input, source_lang, target_lang],
         server_port=7860,
         share=False,  # 로컬에서만 실행
         debug=True    # 디버그 모드 활성화
+    )