Spaces:

Athspi-aitools
/

Aittsg

Running

App Files Files Community

Athspi commited on Jun 26

Commit

a71d68c

verified ·

1 Parent(s): 5875fa2

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -14

app.py CHANGED Viewed

@@ -12,7 +12,7 @@ API_KEY = os.getenv("GEMINI_API_KEY")
 if not API_KEY:
     raise ValueError("Missing GEMINI_API_KEY in .env")
-# REST endpoint with API key as query param
 BASE_URL = (
     "https://generativelanguage.googleapis.com/"
     "v1beta/models/gemini-2.5-flash-preview-tts:"
@@ -23,6 +23,7 @@ BASE_URL = (
 app = FastAPI(title="Gemini TTS Space")
 def save_wav(path: str, pcm: bytes, channels=1, rate=24000, width=2):
     with wave.open(path, "wb") as wf:
         wf.setnchannels(channels)
         wf.setsampwidth(width)
@@ -34,12 +35,15 @@ def health():
     return {"status": "Gemini TTS Space is live!"}
 @app.post("/single_tts")
-def single_tts(prompt: str = Form(...), voice_name: str = Form(...)):
     payload = {
         "model": "gemini-2.5-flash-preview-tts",
         "contents": [{"parts": [{"text": prompt}]}],
-        "generationConfig": {
-            "responseMimeType": "audio/wav",
             "responseModalities": ["AUDIO"],
             "speechConfig": {
                 "voiceConfig": {
@@ -53,12 +57,12 @@ def single_tts(prompt: str = Form(...), voice_name: str = Form(...)):
     if resp.status_code != 200:
         return JSONResponse(status_code=resp.status_code, content=resp.json())
     data_b64 = resp.json()["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
     pcm = base64.b64decode(data_b64)
-    out_path = "single_output.wav"
-    save_wav(out_path, pcm)
-    return FileResponse(out_path, media_type="audio/wav", filename=out_path)
 @app.post("/multi_tts")
 def multi_tts(
@@ -69,8 +73,7 @@ def multi_tts(
     payload = {
         "model": "gemini-2.5-flash-preview-tts",
         "contents": [{"parts": [{"text": prompt}]}],
-        "generationConfig": {
-            "responseMimeType": "audio/wav",
             "responseModalities": ["AUDIO"],
             "speechConfig": {
                 "multiSpeakerVoiceConfig": {
@@ -99,7 +102,6 @@ def multi_tts(
     data_b64 = resp.json()["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
     pcm = base64.b64decode(data_b64)
-    out_path = "multi_output.wav"
-    save_wav(out_path, pcm)
-    return FileResponse(out_path, media_type="audio/wav", filename=out_path)

 if not API_KEY:
     raise ValueError("Missing GEMINI_API_KEY in .env")
+# REST endpoint (API key as query param)
 BASE_URL = (
     "https://generativelanguage.googleapis.com/"
     "v1beta/models/gemini-2.5-flash-preview-tts:"
 app = FastAPI(title="Gemini TTS Space")
 def save_wav(path: str, pcm: bytes, channels=1, rate=24000, width=2):
+    """Write raw PCM bytes to a WAV file."""
     with wave.open(path, "wb") as wf:
         wf.setnchannels(channels)
         wf.setsampwidth(width)
     return {"status": "Gemini TTS Space is live!"}
 @app.post("/single_tts")
+def single_tts(
+    prompt: str = Form(...),
+    voice_name: str = Form(...)
+):
+    # Build payload with all TTS settings under `config`
     payload = {
         "model": "gemini-2.5-flash-preview-tts",
         "contents": [{"parts": [{"text": prompt}]}],
+        "config": {
             "responseModalities": ["AUDIO"],
             "speechConfig": {
                 "voiceConfig": {
     if resp.status_code != 200:
         return JSONResponse(status_code=resp.status_code, content=resp.json())
+    # Decode and save
     data_b64 = resp.json()["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
     pcm = base64.b64decode(data_b64)
+    out = "single_output.wav"
+    save_wav(out, pcm)
+    return FileResponse(out, media_type="audio/wav", filename=out)
 @app.post("/multi_tts")
 def multi_tts(
     payload = {
         "model": "gemini-2.5-flash-preview-tts",
         "contents": [{"parts": [{"text": prompt}]}],
+        "config": {
             "responseModalities": ["AUDIO"],
             "speechConfig": {
                 "multiSpeakerVoiceConfig": {
     data_b64 = resp.json()["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
     pcm = base64.b64decode(data_b64)
+    out = "multi_output.wav"
+    save_wav(out, pcm)
+    return FileResponse(out, media_type="audio/wav", filename=out)