Spaces:

Athspi-aitools
/

Aittsg

Running

App Files Files Community

Athspi commited on Jun 26

Commit

7f0d329

verified ·

1 Parent(s): 514466d

Update app.py

Browse files

Files changed (1) hide show

app.py +83 -26

app.py CHANGED Viewed

@@ -1,61 +1,116 @@
-from fastapi import FastAPI, HTTPException
-from pydantic import BaseModel
-from typing import Dict
 import os
 import requests
 import wave
 import base64
 from dotenv import load_dotenv
 load_dotenv()
 GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")
 if not GEMINI_API_KEY:
-    raise ValueError("Missing GEMINI_API_KEY")
 API_URL = "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent"
 app = FastAPI()
-class TTSRequest(BaseModel):
-    prompt: str
-    speakers: Dict[str, str]  # e.g. { "Joe": "Kore", "Jane": "Puck" }
-def wave_file(filename, pcm_data, channels=1, rate=24000, sample_width=2):
     with wave.open(filename, "wb") as wf:
         wf.setnchannels(channels)
         wf.setsampwidth(sample_width)
         wf.setframerate(rate)
         wf.writeframes(pcm_data)
-@app.post("/dynamic_multispeaker_tts")
-def dynamic_multispeaker_tts(request: TTSRequest):
     headers = {
         "Content-Type": "application/json",
         "Authorization": f"Bearer {GEMINI_API_KEY}"
     }
-    # Build speaker voice config list dynamically
-    speaker_voice_configs = []
-    for speaker, voice_name in request.speakers.items():
-        speaker_voice_configs.append({
-            "speaker": speaker,
             "voiceConfig": {
                 "prebuiltVoiceConfig": {
                     "voiceName": voice_name
                 }
             }
-        })
     payload = {
-        "contents": [{"parts": [{"text": request.prompt}]}],
         "generationConfig": {
             "responseMimeType": "audio/wav"
         },
         "responseModality": "AUDIO",
         "speechConfig": {
             "multiSpeakerVoiceConfig": {
-                "speakerVoiceConfigs": speaker_voice_configs
             }
         }
     }
@@ -63,21 +118,23 @@ def dynamic_multispeaker_tts(request: TTSRequest):
     response = requests.post(API_URL, headers=headers, json=payload)
     if response.status_code != 200:
-        raise HTTPException(status_code=500, detail=response.text)
     result = response.json()
     try:
         audio_data_b64 = result["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
         audio_data = base64.b64decode(audio_data_b64)
-        output_path = "output.wav"
-        wave_file(output_path, audio_data)
-        return {"message": "Audio generated successfully. Download 'output.wav'."}
     except Exception as e:
-        raise HTTPException(status_code=500, detail=str(e))
 @app.get("/")
 def root():
-    return {"message": "Gemini Multi-Speaker TTS is running!"}

 import os
 import requests
 import wave
 import base64
+from fastapi import FastAPI, Form
+from fastapi.responses import FileResponse, JSONResponse
 from dotenv import load_dotenv
+# Load environment variables
 load_dotenv()
 GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")
 if not GEMINI_API_KEY:
+    raise ValueError("Missing GEMINI_API_KEY in .env")
+# Base Gemini API URL for TTS
 API_URL = "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent"
 app = FastAPI()
+# Utility to save PCM audio as a WAV file
+def save_wav(filename, pcm_data, channels=1, rate=24000, sample_width=2):
     with wave.open(filename, "wb") as wf:
         wf.setnchannels(channels)
         wf.setsampwidth(sample_width)
         wf.setframerate(rate)
         wf.writeframes(pcm_data)
+# ✅ Single speaker TTS endpoint
+@app.post("/single_tts")
+def single_tts(
+    prompt: str = Form(...),
+    voice_name: str = Form(...)
+):
     headers = {
         "Content-Type": "application/json",
         "Authorization": f"Bearer {GEMINI_API_KEY}"
     }
+    payload = {
+        "contents": [{"parts": [{"text": prompt}]}],
+        "generationConfig": {
+            "responseMimeType": "audio/wav"
+        },
+        "responseModality": "AUDIO",
+        "speechConfig": {
             "voiceConfig": {
                 "prebuiltVoiceConfig": {
                     "voiceName": voice_name
                 }
             }
+        }
+    }
+    response = requests.post(API_URL, headers=headers, json=payload)
+    if response.status_code != 200:
+        return JSONResponse(status_code=500, content={"error": response.text})
+    result = response.json()
+    try:
+        audio_data_b64 = result["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
+        audio_data = base64.b64decode(audio_data_b64)
+        file_path = "single_output.wav"
+        save_wav(file_path, audio_data)
+        return FileResponse(file_path, media_type="audio/wav", filename="single_output.wav")
+    except Exception as e:
+        return JSONResponse(status_code=500, content={"error": str(e)})
+# ✅ Multi-speaker TTS endpoint
+@app.post("/multi_tts")
+def multi_tts(
+    prompt: str = Form(...),
+    speaker1_name: str = Form(...),
+    speaker1_voice: str = Form(...),
+    speaker2_name: str = Form(...),
+    speaker2_voice: str = Form(...)
+):
+    headers = {
+        "Content-Type": "application/json",
+        "Authorization": f"Bearer {GEMINI_API_KEY}"
+    }
     payload = {
+        "contents": [{"parts": [{"text": prompt}]}],
         "generationConfig": {
             "responseMimeType": "audio/wav"
         },
         "responseModality": "AUDIO",
         "speechConfig": {
             "multiSpeakerVoiceConfig": {
+                "speakerVoiceConfigs": [
+                    {
+                        "speaker": speaker1_name,
+                        "voiceConfig": {
+                            "prebuiltVoiceConfig": {
+                                "voiceName": speaker1_voice
+                            }
+                        }
+                    },
+                    {
+                        "speaker": speaker2_name,
+                        "voiceConfig": {
+                            "prebuiltVoiceConfig": {
+                                "voiceName": speaker2_voice
+                            }
+                        }
+                    }
+                ]
             }
         }
     }
     response = requests.post(API_URL, headers=headers, json=payload)
     if response.status_code != 200:
+        return JSONResponse(status_code=500, content={"error": response.text})
     result = response.json()
     try:
         audio_data_b64 = result["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
         audio_data = base64.b64decode(audio_data_b64)
+        file_path = "multi_output.wav"
+        save_wav(file_path, audio_data)
+        return FileResponse(file_path, media_type="audio/wav", filename="multi_output.wav")
     except Exception as e:
+        return JSONResponse(status_code=500, content={"error": str(e)})
+# Test route
 @app.get("/")
 def root():
+    return {"message": "Gemini TTS API is live!"}