Spaces:

Athspi-aitools
/

Aittsg

Running

App Files Files Community

Athspi commited on Jun 26

Commit

de5b9f0

verified ·

1 Parent(s): d5d02b0

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -40

app.py CHANGED Viewed

@@ -1,25 +1,20 @@
 from fastapi import FastAPI, Form
-from fastapi.responses import FileResponse, JSONResponse
 import google.generativeai as genai
-from google.generativeai.types import GenerationConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig
 import wave
 import os
 app = FastAPI()
-# Set your Google API key via environment variable
 GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
 if not GOOGLE_API_KEY:
-    raise ValueError("GOOGLE_API_KEY environment variable not set.")
-# Configure the GenAI client
 genai.configure(api_key=GOOGLE_API_KEY)
-# Load the TTS model
 model = genai.GenerativeModel(model_name="gemini-2.5-flash-preview-tts")
-# Function to write PCM audio data to WAV file
 def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
     with wave.open(filename, "wb") as wf:
         wf.setnchannels(channels)
@@ -27,39 +22,17 @@ def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
         wf.setframerate(rate)
         wf.writeframes(pcm)
-# Root endpoint to confirm API is running
-@app.get("/")
-def read_root():
-    return {"message": "✅ Gemini TTS FastAPI running on Hugging Face Spaces!"}
-# POST endpoint to generate TTS audio from text
-@app.post("/generate-audio")
-def generate_audio(text: str = Form(...)):
-    try:
-        response = model.generate_content(
-            contents=text,
-            generation_config=GenerationConfig(
-                response_mime_type="audio/wav"
-            ),
-            response_modality="AUDIO",
-            speech_config=SpeechConfig(
-                voice_config=VoiceConfig(
-                    prebuilt_voice=PrebuiltVoiceConfig(
-                        voice_name="Kore"
-                    )
-                )
-            )
-        )
-        # Get raw audio data
-        data = response.candidates[0].content.parts[0].inline_data.data
-        # Save to file
-        file_name = "output.wav"
-        wave_file(file_name, data)
-        # Return the file as response
-        return FileResponse(file_name, media_type="audio/wav", filename="output.wav")
-    except Exception as e:
-        return JSONResponse(content={"error": str(e)}, status_code=500)

 from fastapi import FastAPI, Form
+from fastapi.responses import FileResponse
 import google.generativeai as genai
 import wave
 import os
 app = FastAPI()
 GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
 if not GOOGLE_API_KEY:
+    raise ValueError("Set GOOGLE_API_KEY environment variable.")
 genai.configure(api_key=GOOGLE_API_KEY)
 model = genai.GenerativeModel(model_name="gemini-2.5-flash-preview-tts")
 def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
     with wave.open(filename, "wb") as wf:
         wf.setnchannels(channels)
         wf.setframerate(rate)
         wf.writeframes(pcm)
+@app.post("/tts")
+def tts(text: str = Form(...)):
+    response = model.generate_content(
+        text,
+        generation_config={"response_mime_type": "audio/wav"},
+        response_modality="AUDIO"
+    )
+    audio_data = response.candidates[0].content.parts[0].inline_data.data
+    output_path = "out.wav"
+    wave_file(output_path, audio_data)
+    return FileResponse(output_path, media_type="audio/wav", filename="output.wav")