Spaces:

VIDraft
/

voice-trans

Running on Zero

App Files Files Community

voice-trans / app.py

openfree

Update app.py

54c3f0f verified 3 months ago

raw

history blame

7.29 kB

	import gradio as gr
	import openai
	import os
	import tempfile
	from dotenv import load_dotenv

	# 환경변수 로드
	load_dotenv()

	# OpenAI 클라이언트 설정
	api_key = os.getenv("OPENAI_API_KEY")
	if not api_key:
	print("⚠️ OPENAI_API_KEY를 .env 파일에 설정하세요!")
	print("예: OPENAI_API_KEY=sk-...")
	else:
	print(f"✅ API Key 로드됨: {api_key[:10]}...")

	try:
	client = openai.OpenAI(api_key=api_key)
	except Exception as e:
	print(f"❌ OpenAI 클라이언트 초기화 실패: {e}")
	client = None

	def translate_audio(audio_file, source_lang, target_lang):
	"""음성 파일을 번역하는 함수"""

	# 입력 검증
	if not audio_file:
	return "⚠️ 오디오 파일을 업로드하거나 녹음하세요.", "", None

	if not api_key:
	return "❌ API 키가 설정되지 않았습니다. .env 파일을 확인하세요.", "", None

	if not client:
	return "❌ OpenAI 클라이언트가 초기화되지 않았습니다.", "", None

	# 같은 언어로 번역하려는 경우
	if source_lang == target_lang:
	return "⚠️ 입력 언어와 출력 언어가 같습니다.", "", None

	try:
	print(f"🎤 오디오 파일 처리 중: {audio_file}")
	print(f"📊 파일 크기: {os.path.getsize(audio_file) / 1024 / 1024:.2f} MB")

	# 1. Whisper로 음성을 텍스트로 변환
	print("1️⃣ 음성 인식 시작...")
	with open(audio_file, "rb") as f:
	transcript = client.audio.transcriptions.create(
	model="whisper-1",
	file=f,
	language=source_lang[:2].lower() if source_lang != "Chinese" else "zh"
	)
	original_text = transcript.text
	print(f"✅ 음성 인식 완료: {original_text[:50]}...")

	# 빈 텍스트 체크
	if not original_text.strip():
	return "⚠️ 음성이 인식되지 않았습니다. 다시 녹음해주세요.", "", None

	# 2. GPT-4로 번역
	print("2️⃣ 번역 시작...")
	response = client.chat.completions.create(
	model="gpt-3.5-turbo", # 더 빠르고 안정적
	messages=[
	{
	"role": "system",
	"content": f"You are a professional translator. Translate the following {source_lang} text to {target_lang}. Only provide the translation without any explanation or additional text."
	},
	{
	"role": "user",
	"content": original_text
	}
	],
	temperature=0.3,
	max_tokens=2000
	)
	translated_text = response.choices[0].message.content.strip()
	print(f"✅ 번역 완료: {translated_text[:50]}...")

	# 3. TTS로 번역된 텍스트를 음성으로 변환
	print("3️⃣ 음성 합성 시작...")

	# 언어별 음성 선택
	voice_map = {
	"Korean": "nova",
	"English": "alloy",
	"Japanese": "nova",
	"Chinese": "nova",
	"Spanish": "nova",
	"French": "nova"
	}
	voice = voice_map.get(target_lang, "alloy")

	tts_response = client.audio.speech.create(
	model="tts-1",
	voice=voice,
	input=translated_text[:4096] # TTS 길이 제한
	)

	# 임시 파일로 저장
	with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp_file:
	tmp_file.write(tts_response.content)
	output_file = tmp_file.name

	print("✅ 모든 처리 완료!")
	return original_text, translated_text, output_file

	except openai.APIError as e:
	error_msg = f"❌ OpenAI API 오류: {str(e)}"
	print(error_msg)
	return error_msg, "", None
	except openai.AuthenticationError:
	error_msg = "❌ API 키가 올바르지 않습니다. .env 파일을 확인하세요."
	print(error_msg)
	return error_msg, "", None
	except openai.RateLimitError:
	error_msg = "❌ API 사용 한도를 초과했습니다. 잠시 후 다시 시도하세요."
	print(error_msg)
	return error_msg, "", None
	except Exception as e:
	error_msg = f"❌ 예상치 못한 오류: {type(e).__name__}: {str(e)}"
	print(error_msg)
	import traceback
	traceback.print_exc()
	return error_msg, "", None

	# Gradio 인터페이스
	with gr.Blocks(title="음성 번역기", theme=gr.themes.Soft()) as app:
	gr.Markdown(
	"""
	# 🎙️ AI 음성 번역기
	음성을 녹음하거나 업로드하면 자동으로 번역합니다.

	지원 형식: MP3, WAV, M4A, WEBM (최대 25MB)
	"""
	)

	# API 키 상태 표시
	if api_key:
	gr.Markdown(f"✅ API 연결 상태: 정상 (키: {api_key[:10]}...)")
	else:
	gr.Markdown("❌ API 연결 상태: API 키를 설정하세요")

	with gr.Row():
	source_lang = gr.Dropdown(
	["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
	value="Korean",
	label="입력 언어",
	info="음성의 언어를 선택하세요"
	)
	target_lang = gr.Dropdown(
	["Korean", "English", "Japanese", "Chinese", "Spanish", "French"],
	value="English",
	label="출력 언어",
	info="번역할 언어를 선택하세요"
	)

	audio_input = gr.Audio(
	sources=["microphone", "upload"],
	type="filepath",
	label="음성 입력 (녹음 또는 파일 업로드)",
	info="마이크 버튼을 클릭하여 녹음하거나 파일을 드래그하세요"
	)

	translate_btn = gr.Button("🔄 번역하기", variant="primary", size="lg")

	with gr.Row():
	original_text = gr.Textbox(
	label="📝 원본 텍스트",
	lines=5,
	placeholder="음성 인식 결과가 여기에 표시됩니다..."
	)
	translated_text = gr.Textbox(
	label="🌐 번역된 텍스트",
	lines=5,
	placeholder="번역 결과가 여기에 표시됩니다..."
	)

	audio_input = gr.Audio(
	sources=["microphone", "upload"],
	type="filepath",
	label="음성 입력 (녹음 또는 파일 업로드)"
	# info 파라미터 제거
	)



	# 예시
	gr.Examples(
	examples=[
	["Korean", "English"],
	["English", "Korean"],
	["Japanese", "English"],
	["Chinese", "Korean"]
	],
	inputs=[source_lang, target_lang],
	label="언어 조합 예시"
	)

	translate_btn.click(
	translate_audio,
	inputs=[audio_input, source_lang, target_lang],
	outputs=[original_text, translated_text, audio_output]
	)

	if __name__ == "__main__":
	print("🚀 서버 시작 중...")
	app.launch(
	server_name="0.0.0.0",
	server_port=7860,
	share=False, # 로컬에서만 실행
	debug=True # 디버그 모드 활성화
	)