Spaces:

Athspi-aitools
/

Aittsg

Running

App Files Files Community

Athspi commited on Jun 26

Commit

6aa8d7a

verified ·

1 Parent(s): a71d68c

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -35

app.py CHANGED Viewed

@@ -2,17 +2,17 @@ import os
 import requests
 import wave
 import base64
-from fastapi import FastAPI, Form
-from fastapi.responses import FileResponse, JSONResponse
 from dotenv import load_dotenv
 # Load API key
 load_dotenv()
 API_KEY = os.getenv("GEMINI_API_KEY")
 if not API_KEY:
-    raise ValueError("Missing GEMINI_API_KEY in .env")
-# REST endpoint (API key as query param)
 BASE_URL = (
     "https://generativelanguage.googleapis.com/"
     "v1beta/models/gemini-2.5-flash-preview-tts:"
@@ -20,34 +20,40 @@ BASE_URL = (
     f"?key={API_KEY}"
 )
-app = FastAPI(title="Gemini TTS Space")
 def save_wav(path: str, pcm: bytes, channels=1, rate=24000, width=2):
-    """Write raw PCM bytes to a WAV file."""
     with wave.open(path, "wb") as wf:
         wf.setnchannels(channels)
         wf.setsampwidth(width)
         wf.setframerate(rate)
         wf.writeframes(pcm)
 @app.get("/")
 def health():
-    return {"status": "Gemini TTS Space is live!"}
 @app.post("/single_tts")
-def single_tts(
-    prompt: str = Form(...),
-    voice_name: str = Form(...)
-):
-    # Build payload with all TTS settings under `config`
     payload = {
         "model": "gemini-2.5-flash-preview-tts",
-        "contents": [{"parts": [{"text": prompt}]}],
         "config": {
             "responseModalities": ["AUDIO"],
             "speechConfig": {
                 "voiceConfig": {
-                    "prebuiltVoiceConfig": {"voiceName": voice_name}
                 }
             }
         }
@@ -55,40 +61,31 @@ def single_tts(
     resp = requests.post(BASE_URL, json=payload)
     if resp.status_code != 200:
-        return JSONResponse(status_code=resp.status_code, content=resp.json())
-    # Decode and save
-    data_b64 = resp.json()["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
-    pcm = base64.b64decode(data_b64)
     out = "single_output.wav"
     save_wav(out, pcm)
     return FileResponse(out, media_type="audio/wav", filename=out)
 @app.post("/multi_tts")
-def multi_tts(
-    prompt: str = Form(...),
-    speaker1: str = Form(...), voice1: str = Form(...),
-    speaker2: str = Form(...), voice2: str = Form(...)
-):
     payload = {
         "model": "gemini-2.5-flash-preview-tts",
-        "contents": [{"parts": [{"text": prompt}]}],
         "config": {
             "responseModalities": ["AUDIO"],
             "speechConfig": {
                 "multiSpeakerVoiceConfig": {
                     "speakerVoiceConfigs": [
                         {
-                            "speaker": speaker1,
-                            "voiceConfig": {
-                                "prebuiltVoiceConfig": {"voiceName": voice1}
-                            }
                         },
                         {
-                            "speaker": speaker2,
-                            "voiceConfig": {
-                                "prebuiltVoiceConfig": {"voiceName": voice2}
-                            }
                         }
                     ]
                 }
@@ -98,10 +95,10 @@ def multi_tts(
     resp = requests.post(BASE_URL, json=payload)
     if resp.status_code != 200:
-        return JSONResponse(status_code=resp.status_code, content=resp.json())
-    data_b64 = resp.json()["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
-    pcm = base64.b64decode(data_b64)
     out = "multi_output.wav"
     save_wav(out, pcm)
     return FileResponse(out, media_type="audio/wav", filename=out)

 import requests
 import wave
 import base64
+from fastapi import FastAPI, HTTPException
+from fastapi.responses import FileResponse
+from pydantic import BaseModel
 from dotenv import load_dotenv
 # Load API key
 load_dotenv()
 API_KEY = os.getenv("GEMINI_API_KEY")
 if not API_KEY:
+    raise RuntimeError("Missing GEMINI_API_KEY in environment")
 BASE_URL = (
     "https://generativelanguage.googleapis.com/"
     "v1beta/models/gemini-2.5-flash-preview-tts:"
     f"?key={API_KEY}"
 )
+app = FastAPI(title="Gemini TTS JSON API")
 def save_wav(path: str, pcm: bytes, channels=1, rate=24000, width=2):
     with wave.open(path, "wb") as wf:
         wf.setnchannels(channels)
         wf.setsampwidth(width)
         wf.setframerate(rate)
         wf.writeframes(pcm)
+class SingleTTSRequest(BaseModel):
+    prompt: str
+    voice_name: str
+class MultiTTSRequest(BaseModel):
+    prompt: str
+    speaker1: str
+    voice1: str
+    speaker2: str
+    voice2: str
 @app.get("/")
 def health():
+    return {"status": "Gemini TTS JSON API up and running!"}
 @app.post("/single_tts")
+def single_tts(req: SingleTTSRequest):
     payload = {
         "model": "gemini-2.5-flash-preview-tts",
+        "contents": [{"parts": [{"text": req.prompt}]}],
         "config": {
             "responseModalities": ["AUDIO"],
             "speechConfig": {
                 "voiceConfig": {
+                    "prebuiltVoiceConfig": {"voiceName": req.voice_name}
                 }
             }
         }
     resp = requests.post(BASE_URL, json=payload)
     if resp.status_code != 200:
+        raise HTTPException(status_code=resp.status_code, detail=resp.json())
+    b64 = resp.json()["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
+    pcm = base64.b64decode(b64)
     out = "single_output.wav"
     save_wav(out, pcm)
     return FileResponse(out, media_type="audio/wav", filename=out)
 @app.post("/multi_tts")
+def multi_tts(req: MultiTTSRequest):
     payload = {
         "model": "gemini-2.5-flash-preview-tts",
+        "contents": [{"parts": [{"text": req.prompt}]}],
         "config": {
             "responseModalities": ["AUDIO"],
             "speechConfig": {
                 "multiSpeakerVoiceConfig": {
                     "speakerVoiceConfigs": [
                         {
+                            "speaker": req.speaker1,
+                            "voiceConfig": {"prebuiltVoiceConfig": {"voiceName": req.voice1}}
                         },
                         {
+                            "speaker": req.speaker2,
+                            "voiceConfig": {"prebuiltVoiceConfig": {"voiceName": req.voice2}}
                         }
                     ]
                 }
     resp = requests.post(BASE_URL, json=payload)
     if resp.status_code != 200:
+        raise HTTPException(status_code=resp.status_code, detail=resp.json())
+    b64 = resp.json()["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
+    pcm = base64.b64decode(b64)
     out = "multi_output.wav"
     save_wav(out, pcm)
     return FileResponse(out, media_type="audio/wav", filename=out)