Spaces:

Athspi-ai
/

Audio-translation

Running

App Files Files Community

Athspi commited on Feb 23

Commit

413a70d

verified ·

1 Parent(s): 241214a

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -16

app.py CHANGED Viewed

@@ -5,13 +5,19 @@ import google.generativeai as genai
 from gtts import gTTS, lang
 import tempfile
-# Configure Gemini API (replace with your API key or use environment variable)
-GEMINI_API_KEY = os.getenv("GEMINI_API_KEY", "YOUR_GEMINI_API_KEY_HERE")
 genai.configure(api_key=GEMINI_API_KEY)
-# Initialize the faster-whisper model
 model_size = "Systran/faster-whisper-large-v3"
-whisper_model = WhisperModel(model_size, device="auto", compute_type="float16")
 # Function to transcribe audio using faster-whisper
 def transcribe_audio(audio_file):
@@ -27,7 +33,6 @@ def transcribe_audio(audio_file):
 def translate_text(text, target_language):
     try:
         model = genai.GenerativeModel("gemini-1.5-flash")
-        # Magic prompt to ensure only translated text is returned
         prompt = f"Translate the following text to {target_language} and return only the translated text with no additional explanation or commentary:\n\n{text}"
         response = model.generate_content(prompt)
         translated_text = response.text.strip()
@@ -38,9 +43,7 @@ def translate_text(text, target_language):
 # Function to convert text to speech using gTTS with full language support
 def text_to_speech(text, language):
     try:
-        # Get all supported languages from gTTS
         lang_map = lang.tts_langs()
-        # Use the language code directly if supported, otherwise default to 'en'
         tts_lang = language.lower() if language.lower() in lang_map else "en"
         tts = gTTS(text=text, lang=tts_lang, slow=False)
         with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as fp:
@@ -51,20 +54,18 @@ def text_to_speech(text, language):
 # Main function to process audio input and return outputs
 def process_audio(audio_file, target_language):
-    # Step 1: Transcribe audio
     transcription, detected_language, error = transcribe_audio(audio_file)
     if error:
         return error, None, None, None
-    # Step 2: Translate transcription
     translated_text, error = translate_text(transcription, target_language)
     if error:
         return error, transcription, None, None
-    # Step 3: Convert translated text to speech
-    # Map target language name to gTTS language code
     lang_map = lang.tts_langs()
-    # Convert target_language to lowercase keys as in lang_map
     lang_key = next((k for k, v in lang_map.items() if v.lower() == target_language.lower()), "en")
     audio_output, error = text_to_speech(translated_text, lang_key)
     if error:
@@ -75,11 +76,10 @@ def process_audio(audio_file, target_language):
 # Gradio interface
 with gr.Blocks(title="AI Audio Translator") as demo:
     gr.Markdown("# AI Audio Translator")
-    gr.Markdown("Upload an audio file, select a target language, and get the transcription, translation, and translated audio!")
-    # Get all supported languages from gTTS
-    supported_langs = {v: k for k, v in lang.tts_langs().items()}  # {name: code}
-    language_choices = list(supported_langs.keys())  # List of language names
     with gr.Row():
         audio_input = gr.Audio(sources=["upload", "microphone"], type="filepath", label="Input Audio")

 from gtts import gTTS, lang
 import tempfile
+# Configure Gemini API (use environment variable for Hugging Face Spaces)
+GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")
+if not GEMINI_API_KEY:
+    raise ValueError("GEMINI_API_KEY environment variable not set. Please set it in the Hugging Face Spaces Secrets.")
 genai.configure(api_key=GEMINI_API_KEY)
+# Initialize the faster-whisper model with fallback compute type
 model_size = "Systran/faster-whisper-large-v3"
+try:
+    whisper_model = WhisperModel(model_size, device="auto", compute_type="float16")
+except ValueError:
+    print("Float16 not supported, falling back to int8 on CPU")
+    whisper_model = WhisperModel(model_size, device="cpu", compute_type="int8")
 # Function to transcribe audio using faster-whisper
 def transcribe_audio(audio_file):
 def translate_text(text, target_language):
     try:
         model = genai.GenerativeModel("gemini-1.5-flash")
         prompt = f"Translate the following text to {target_language} and return only the translated text with no additional explanation or commentary:\n\n{text}"
         response = model.generate_content(prompt)
         translated_text = response.text.strip()
 # Function to convert text to speech using gTTS with full language support
 def text_to_speech(text, language):
     try:
         lang_map = lang.tts_langs()
         tts_lang = language.lower() if language.lower() in lang_map else "en"
         tts = gTTS(text=text, lang=tts_lang, slow=False)
         with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as fp:
 # Main function to process audio input and return outputs
 def process_audio(audio_file, target_language):
+    if audio_file is None:
+        return "Please upload an audio file or record audio.", None, None, None
     transcription, detected_language, error = transcribe_audio(audio_file)
     if error:
         return error, None, None, None
     translated_text, error = translate_text(transcription, target_language)
     if error:
         return error, transcription, None, None
     lang_map = lang.tts_langs()
     lang_key = next((k for k, v in lang_map.items() if v.lower() == target_language.lower()), "en")
     audio_output, error = text_to_speech(translated_text, lang_key)
     if error:
 # Gradio interface
 with gr.Blocks(title="AI Audio Translator") as demo:
     gr.Markdown("# AI Audio Translator")
+    gr.Markdown("Upload an audio file or record via microphone, select a target language, and get the transcription, translation, and translated audio!")
+    supported_langs = {v: k for k, v in lang.tts_langs().items()}
+    language_choices = list(supported_langs.keys())
     with gr.Row():
         audio_input = gr.Audio(sources=["upload", "microphone"], type="filepath", label="Input Audio")