Spaces:

Athspi-aitools
/

Aittsg

Running

App Files Files Community

Athspi commited on Jun 26

Commit

5011794

verified ·

1 Parent(s): 839126d

Update app.py

Browse files

Files changed (1) hide show

app.py +68 -23

app.py CHANGED Viewed

@@ -1,38 +1,83 @@
-from fastapi import FastAPI, Form
-from fastapi.responses import FileResponse
-import google.generativeai as genai
-import wave
 import os
-app = FastAPI()
-GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
-if not GOOGLE_API_KEY:
-    raise ValueError("Set GOOGLE_API_KEY environment variable.")
-genai.configure(api_key=GOOGLE_API_KEY)
-model = genai.GenerativeModel(model_name="gemini-2.5-flash-preview-tts")
-def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
     with wave.open(filename, "wb") as wf:
         wf.setnchannels(channels)
         wf.setsampwidth(sample_width)
         wf.setframerate(rate)
-        wf.writeframes(pcm)
-@app.post("/tts")
-def tts(text: str = Form(...)):
-    response = model.generate_content(
-        text,
-        generation_config={"response_mime_type": "audio/wav"},
-        response_modality="AUDIO"
-    )
-    audio_data = response.candidates[0].content.parts[0].inline_data.data
-    output_path = "out.wav"
-    wave_file(output_path, audio_data)
-    return FileResponse(output_path, media_type="audio/wav", filename="output.wav")

+from fastapi import FastAPI, HTTPException
+from pydantic import BaseModel
+from typing import Dict
 import os
+import requests
+import wave
+import base64
+from dotenv import load_dotenv
+load_dotenv()
+GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")
+if not GEMINI_API_KEY:
+    raise ValueError("Missing GEMINI_API_KEY")
+API_URL = "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent"
+app = FastAPI()
+class TTSRequest(BaseModel):
+    prompt: str
+    speakers: Dict[str, str]  # e.g. { "Joe": "Kore", "Jane": "Puck" }
+def wave_file(filename, pcm_data, channels=1, rate=24000, sample_width=2):
     with wave.open(filename, "wb") as wf:
         wf.setnchannels(channels)
         wf.setsampwidth(sample_width)
         wf.setframerate(rate)
+        wf.writeframes(pcm_data)
+@app.post("/dynamic_multispeaker_tts")
+def dynamic_multispeaker_tts(request: TTSRequest):
+    headers = {
+        "Content-Type": "application/json",
+        "Authorization": f"Bearer {GEMINI_API_KEY}"
+    }
+    # Build speaker voice config list dynamically
+    speaker_voice_configs = []
+    for speaker, voice_name in request.speakers.items():
+        speaker_voice_configs.append({
+            "speaker": speaker,
+            "voiceConfig": {
+                "prebuiltVoiceConfig": {
+                    "voiceName": voice_name
+                }
+            }
+        })
+    payload = {
+        "contents": [{"parts": [{"text": request.prompt}]}],
+        "generationConfig": {
+            "responseMimeType": "audio/wav"
+        },
+        "responseModality": "AUDIO",
+        "speechConfig": {
+            "multiSpeakerVoiceConfig": {
+                "speakerVoiceConfigs": speaker_voice_configs
+            }
+        }
+    }
+    response = requests.post(API_URL, headers=headers, json=payload)
+    if response.status_code != 200:
+        raise HTTPException(status_code=500, detail=response.text)
+    result = response.json()
+    try:
+        audio_data_b64 = result["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
+        audio_data = base64.b64decode(audio_data_b64)
+        output_path = "output.wav"
+        wave_file(output_path, audio_data)
+        return {"message": "Audio generated successfully. Download 'output.wav'."}
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
+@app.get("/")
+def root():
+    return {"message": "Gemini Multi-Speaker TTS is running!"}