Spaces:

Athspi-aitools
/

Aittsg

Running

App Files Files Community

Athspi commited on Jun 26

Commit

7b02fdc

verified ·

1 Parent(s): 6aa8d7a

Update app.py

Browse files

Files changed (1) hide show

app.py +67 -100

app.py CHANGED Viewed

@@ -1,104 +1,71 @@
 import os
-import requests
 import wave
-import base64
-from fastapi import FastAPI, HTTPException
-from fastapi.responses import FileResponse
-from pydantic import BaseModel
-from dotenv import load_dotenv
-# Load API key
-load_dotenv()
-API_KEY = os.getenv("GEMINI_API_KEY")
-if not API_KEY:
-    raise RuntimeError("Missing GEMINI_API_KEY in environment")
-BASE_URL = (
-    "https://generativelanguage.googleapis.com/"
-    "v1beta/models/gemini-2.5-flash-preview-tts:"
-    "generateContent"
-    f"?key={API_KEY}"
-)
-app = FastAPI(title="Gemini TTS JSON API")
-def save_wav(path: str, pcm: bytes, channels=1, rate=24000, width=2):
-    with wave.open(path, "wb") as wf:
         wf.setnchannels(channels)
-        wf.setsampwidth(width)
         wf.setframerate(rate)
-        wf.writeframes(pcm)
-class SingleTTSRequest(BaseModel):
-    prompt: str
-    voice_name: str
-class MultiTTSRequest(BaseModel):
-    prompt: str
-    speaker1: str
-    voice1: str
-    speaker2: str
-    voice2: str
-@app.get("/")
-def health():
-    return {"status": "Gemini TTS JSON API up and running!"}
-@app.post("/single_tts")
-def single_tts(req: SingleTTSRequest):
-    payload = {
-        "model": "gemini-2.5-flash-preview-tts",
-        "contents": [{"parts": [{"text": req.prompt}]}],
-        "config": {
-            "responseModalities": ["AUDIO"],
-            "speechConfig": {
-                "voiceConfig": {
-                    "prebuiltVoiceConfig": {"voiceName": req.voice_name}
-                }
-            }
-        }
-    }
-    resp = requests.post(BASE_URL, json=payload)
-    if resp.status_code != 200:
-        raise HTTPException(status_code=resp.status_code, detail=resp.json())
-    b64 = resp.json()["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
-    pcm = base64.b64decode(b64)
-    out = "single_output.wav"
-    save_wav(out, pcm)
-    return FileResponse(out, media_type="audio/wav", filename=out)
-@app.post("/multi_tts")
-def multi_tts(req: MultiTTSRequest):
-    payload = {
-        "model": "gemini-2.5-flash-preview-tts",
-        "contents": [{"parts": [{"text": req.prompt}]}],
-        "config": {
-            "responseModalities": ["AUDIO"],
-            "speechConfig": {
-                "multiSpeakerVoiceConfig": {
-                    "speakerVoiceConfigs": [
-                        {
-                            "speaker": req.speaker1,
-                            "voiceConfig": {"prebuiltVoiceConfig": {"voiceName": req.voice1}}
-                        },
-                        {
-                            "speaker": req.speaker2,
-                            "voiceConfig": {"prebuiltVoiceConfig": {"voiceName": req.voice2}}
-                        }
-                    ]
-                }
-            }
-        }
-    }
-    resp = requests.post(BASE_URL, json=payload)
-    if resp.status_code != 200:
-        raise HTTPException(status_code=resp.status_code, detail=resp.json())
-    b64 = resp.json()["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
-    pcm = base64.b64decode(b64)
-    out = "multi_output.wav"
-    save_wav(out, pcm)
-    return FileResponse(out, media_type="audio/wav", filename=out)

 import os
 import wave
+import gradio as gr
+import google.generativeai as genai
+# Set your API Key (or via Hugging Face Secrets / os.environ)
+GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
+if not GOOGLE_API_KEY:
+    raise ValueError("Please set your GOOGLE_API_KEY environment variable.")
+# Configure Generative AI
+genai.configure(api_key=GOOGLE_API_KEY)
+# Initialize Gemini TTS model
+model = genai.GenerativeModel(model_name="gemini-2.5-flash-preview-tts")
+# Function to save raw PCM data to WAV file
+def save_wave(filename, pcm_data, channels=1, rate=24000, sample_width=2):
+    with wave.open(filename, 'wb') as wf:
         wf.setnchannels(channels)
+        wf.setsampwidth(sample_width)
         wf.setframerate(rate)
+        wf.writeframes(pcm_data)
+# Function to handle TTS generation
+def generate_tts(text):
+    if not text.strip():
+        return None, "Please enter some text."
+    try:
+        response = model.generate_content(
+            text,
+            generation_config={"response_mime_type": "audio/wav"},
+            response_modality="AUDIO"
+        )
+        # Extract audio data from response
+        audio_data = response.candidates[0].content.parts[0].inline_data.data
+        output_filename = "output.wav"
+        save_wave(output_filename, audio_data)
+        return output_filename, "Audio generated successfully!"
+    except Exception as e:
+        return None, f"Error: {str(e)}"
+# Gradio Interface
+with gr.Blocks() as demo:
+    gr.Markdown("## 🎙️ Gemini 2.5 Text-to-Speech Demo")
+    with gr.Row():
+        text_input = gr.Textbox(label="Enter text to convert to speech")
+    with gr.Row():
+        submit_button = gr.Button("Generate Speech")
+    with gr.Row():
+        audio_output = gr.Audio(label="Generated Audio", type="filepath")
+        status_output = gr.Textbox(label="Status")
+    submit_button.click(
+        fn=generate_tts,
+        inputs=[text_input],
+        outputs=[audio_output, status_output]
+    )
+# Launch Gradio app
+if __name__ == "__main__":
+    demo.launch()