Spaces:

VIDraft
/

voice-trans

Running on Zero

File size: 7,293 Bytes

b3067c5
6bdc489
b3067c5
77b322a
6bdc489
b3067c5
6bdc489
 
 
 
 
 
 
 
77b322a
 
6bdc489
77b322a
 
 
 
 
6bdc489
 
 
77b322a
 
6bdc489
77b322a
6bdc489
 
77b322a
 
 
 
 
 
 
 
6bdc489
 
77b322a
 
 
6bdc489
77b322a
6bdc489
 
 
77b322a
 
b3067c5
6bdc489
77b322a
 
 
 
 
6bdc489
 
77b322a
6bdc489
77b322a
6bdc489
77b322a
 
 
 
 
 
 
 
6bdc489
77b322a
 
6bdc489
77b322a
 
b3067c5
6bdc489
77b322a
 
 
 
 
 
 
 
 
 
 
 
 
6bdc489
 
77b322a
 
6bdc489
b3067c5
77b322a
 
 
 
b3067c5
77b322a
6bdc489
b3067c5
77b322a
 
 
 
 
 
 
 
 
 
 
 
6bdc489
77b322a
 
 
 
 
b3067c5
6bdc489
77b322a
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6bdc489
 
 
 
 
77b322a
 
6bdc489
 
 
 
77b322a
 
6bdc489
b3067c5
6bdc489
 
 
77b322a
 
6bdc489
b3067c5
77b322a
b3067c5
6bdc489
77b322a
 
 
 
 
 
 
 
 
 
54c3f0f
 
 
77b322a
54c3f0f
 
77b322a
54c3f0f
 
77b322a
 
 
 
 
 
 
 
 
 
 
 
b3067c5
6bdc489
 
 
 
 
b3067c5
 
77b322a

import gradio as gr
import openai
import os
import tempfile
from dotenv import load_dotenv

# 환경변수 로드
load_dotenv()

# OpenAI 클라이언트 설정
api_key = os.getenv("OPENAI_API_KEY")
if not api_key:
    print("⚠️  OPENAI_API_KEY를 .env 파일에 설정하세요!")
    print("예: OPENAI_API_KEY=sk-...")
else:
    print(f"✅ API Key 로드됨: {api_key[:10]}...")

try:
    client = openai.OpenAI(api_key=api_key)
except Exception as e:
    print(f"❌ OpenAI 클라이언트 초기화 실패: {e}")
    client = None

def translate_audio(audio_file, source_lang, target_lang):
    """음성 파일을 번역하는 함수"""
    
    # 입력 검증
    if not audio_file:
        return "⚠️ 오디오 파일을 업로드하거나 녹음하세요.", "", None
    
    if not api_key:
        return "❌ API 키가 설정되지 않았습니다. .env 파일을 확인하세요.", "", None
    
    if not client:
        return "❌ OpenAI 클라이언트가 초기화되지 않았습니다.", "", None
    
    # 같은 언어로 번역하려는 경우
    if source_lang == target_lang:
        return "⚠️ 입력 언어와 출력 언어가 같습니다.", "", None
    
    try:
        print(f"🎤 오디오 파일 처리 중: {audio_file}")
        print(f"📊 파일 크기: {os.path.getsize(audio_file) / 1024 / 1024:.2f} MB")
        
        # 1. Whisper로 음성을 텍스트로 변환
        print("1️⃣ 음성 인식 시작...")
        with open(audio_file, "rb") as f:
            transcript = client.audio.transcriptions.create(
                model="whisper-1",
                file=f,
                language=source_lang[:2].lower() if source_lang != "Chinese" else "zh"
            )
        original_text = transcript.text
        print(f"✅ 음성 인식 완료: {original_text[:50]}...")
        
        # 빈 텍스트 체크
        if not original_text.strip():
            return "⚠️ 음성이 인식되지 않았습니다. 다시 녹음해주세요.", "", None
        
        # 2. GPT-4로 번역
        print("2️⃣ 번역 시작...")
        response = client.chat.completions.create(
            model="gpt-3.5-turbo",  # 더 빠르고 안정적
            messages=[
                {
                    "role": "system", 
                    "content": f"You are a professional translator. Translate the following {source_lang} text to {target_lang}. Only provide the translation without any explanation or additional text."
                },
                {
                    "role": "user", 
                    "content": original_text
                }
            ],
            temperature=0.3,
            max_tokens=2000
        )
        translated_text = response.choices[0].message.content.strip()
        print(f"✅ 번역 완료: {translated_text[:50]}...")
        
        # 3. TTS로 번역된 텍스트를 음성으로 변환
        print("3️⃣ 음성 합성 시작...")
        
        # 언어별 음성 선택
        voice_map = {
            "Korean": "nova",
            "English": "alloy",
            "Japanese": "nova",
            "Chinese": "nova",
            "Spanish": "nova",
            "French": "nova"
        }
        voice = voice_map.get(target_lang, "alloy")
        
        tts_response = client.audio.speech.create(
            model="tts-1",
            voice=voice,
            input=translated_text[:4096]  # TTS 길이 제한
        )
        
        # 임시 파일로 저장
        with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp_file:
            tmp_file.write(tts_response.content)
            output_file = tmp_file.name
        
        print("✅ 모든 처리 완료!")
        return original_text, translated_text, output_file
        
    except openai.APIError as e:
        error_msg = f"❌ OpenAI API 오류: {str(e)}"
        print(error_msg)
        return error_msg, "", None
    except openai.AuthenticationError:
        error_msg = "❌ API 키가 올바르지 않습니다. .env 파일을 확인하세요."
        print(error_msg)
        return error_msg, "", None
    except openai.RateLimitError:
        error_msg = "❌ API 사용 한도를 초과했습니다. 잠시 후 다시 시도하세요."
        print(error_msg)
        return error_msg, "", None
    except Exception as e:
        error_msg = f"❌ 예상치 못한 오류: {type(e).__name__}: {str(e)}"
        print(error_msg)
        import traceback
        traceback.print_exc()
        return error_msg, "", None

# Gradio 인터페이스
with gr.Blocks(title="음성 번역기", theme=gr.themes.Soft()) as app:
    gr.Markdown(
        """
        # 🎙️ AI 음성 번역기
        음성을 녹음하거나 업로드하면 자동으로 번역합니다.
        
        **지원 형식**: MP3, WAV, M4A, WEBM (최대 25MB)
        """
    )
    
    # API 키 상태 표시
    if api_key:
        gr.Markdown(f"✅ API 연결 상태: 정상 (키: {api_key[:10]}...)")
    else:
        gr.Markdown("❌ API 연결 상태: API 키를 설정하세요")
    
    with gr.Row():
        source_lang = gr.Dropdown(
            ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
            value="Korean",
            label="입력 언어",
            info="음성의 언어를 선택하세요"
        )
        target_lang = gr.Dropdown(
            ["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
            value="English",
            label="출력 언어",
            info="번역할 언어를 선택하세요"
        )
    
    audio_input = gr.Audio(
        sources=["microphone", "upload"],
        type="filepath",
        label="음성 입력 (녹음 또는 파일 업로드)",
        info="마이크 버튼을 클릭하여 녹음하거나 파일을 드래그하세요"
    )
    
    translate_btn = gr.Button("🔄 번역하기", variant="primary", size="lg")
    
    with gr.Row():
        original_text = gr.Textbox(
            label="📝 원본 텍스트",
            lines=5,
            placeholder="음성 인식 결과가 여기에 표시됩니다..."
        )
        translated_text = gr.Textbox(
            label="🌐 번역된 텍스트",
            lines=5,
            placeholder="번역 결과가 여기에 표시됩니다..."
        )

    audio_input = gr.Audio(
        sources=["microphone", "upload"],
        type="filepath",
        label="음성 입력 (녹음 또는 파일 업로드)"
        # info 파라미터 제거
    )


    
    # 예시
    gr.Examples(
        examples=[
            ["Korean", "English"],
            ["English", "Korean"],
            ["Japanese", "English"],
            ["Chinese", "Korean"]
        ],
        inputs=[source_lang, target_lang],
        label="언어 조합 예시"
    )
    
    translate_btn.click(
        translate_audio,
        inputs=[audio_input, source_lang, target_lang],
        outputs=[original_text, translated_text, audio_output]
    )

if __name__ == "__main__":
    print("🚀 서버 시작 중...")
    app.launch(
        server_name="0.0.0.0",
        server_port=7860,
        share=False,  # 로컬에서만 실행
        debug=True    # 디버그 모드 활성화
    )