Spaces:

Athspi-ai
/

Audio-translation

Running

App Files Files Community

Audio-translation / app.py

Athspi

Create app.py

dbe8a71 verified 6 months ago

raw

history blame

4.42 kB

	import os
	import gradio as gr
	from faster_whisper import WhisperModel
	import google.generativeai as genai
	from gtts import gTTS, lang
	import tempfile

	# Configure Gemini API (replace with your API key or use environment variable)
	GEMINI_API_KEY = os.getenv("GEMINI_API_KEY", "YOUR_GEMINI_API_KEY_HERE")
	genai.configure(api_key=GEMINI_API_KEY)

	# Initialize the faster-whisper model
	model_size = "Systran/faster-whisper-large-v3"
	whisper_model = WhisperModel(model_size, device="auto", compute_type="float16")

	# Function to transcribe audio using faster-whisper
	def transcribe_audio(audio_file):
	try:
	segments, info = whisper_model.transcribe(audio_file, beam_size=5)
	transcription = " ".join([segment.text for segment in segments])
	detected_language = info.language
	return transcription, detected_language, None
	except Exception as e:
	return None, None, f"Transcription error: {str(e)}"

	# Function to translate text using Gemini API with a magic prompt
	def translate_text(text, target_language):
	try:
	model = genai.GenerativeModel("gemini-1.5-flash")
	# Magic prompt to ensure only translated text is returned
	prompt = f"Translate the following text to {target_language} and return only the translated text with no additional explanation or commentary:\n\n{text}"
	response = model.generate_content(prompt)
	translated_text = response.text.strip()
	return translated_text, None
	except Exception as e:
	return None, f"Translation error: {str(e)}"

	# Function to convert text to speech using gTTS with full language support
	def text_to_speech(text, language):
	try:
	# Get all supported languages from gTTS
	lang_map = lang.tts_langs()
	# Use the language code directly if supported, otherwise default to 'en'
	tts_lang = language.lower() if language.lower() in lang_map else "en"
	tts = gTTS(text=text, lang=tts_lang, slow=False)
	with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as fp:
	tts.save(fp.name)
	return fp.name, None
	except Exception as e:
	return None, f"TTS error: {str(e)}"

	# Main function to process audio input and return outputs
	def process_audio(audio_file, target_language):
	# Step 1: Transcribe audio
	transcription, detected_language, error = transcribe_audio(audio_file)
	if error:
	return error, None, None, None

	# Step 2: Translate transcription
	translated_text, error = translate_text(transcription, target_language)
	if error:
	return error, transcription, None, None

	# Step 3: Convert translated text to speech
	# Map target language name to gTTS language code
	lang_map = lang.tts_langs()
	# Convert target_language to lowercase keys as in lang_map
	lang_key = next((k for k, v in lang_map.items() if v.lower() == target_language.lower()), "en")
	audio_output, error = text_to_speech(translated_text, lang_key)
	if error:
	return error, transcription, translated_text, None

	return None, transcription, translated_text, audio_output

	# Gradio interface
	with gr.Blocks(title="AI Audio Translator") as demo:
	gr.Markdown("# AI Audio Translator")
	gr.Markdown("Upload an audio file, select a target language, and get the transcription, translation, and translated audio!")

	# Get all supported languages from gTTS
	supported_langs = {v: k for k, v in lang.tts_langs().items()} # {name: code}
	language_choices = list(supported_langs.keys()) # List of language names

	with gr.Row():
	audio_input = gr.Audio(sources=["upload", "microphone"], type="filepath", label="Input Audio")
	target_lang = gr.Dropdown(
	choices=sorted(language_choices),
	value="Spanish",
	label="Target Language"
	)

	submit_btn = gr.Button("Translate")

	with gr.Row():
	error_output = gr.Textbox(label="Error", visible=True)
	transcription_output = gr.Textbox(label="Transcription")
	translation_output = gr.Textbox(label="Translated Text")
	audio_output = gr.Audio(label="Translated Audio")

	submit_btn.click(
	fn=process_audio,
	inputs=[audio_input, target_lang],
	outputs=[error_output, transcription_output, translation_output, audio_output]
	)

	# Launch the app
	demo.launch()