Spaces:

Staticaliza
/

Zero-5

Running

App Files Files Community

Staticaliza commited on May 24

Commit

ad81304

verified ·

1 Parent(s): bacbf22

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -11

app.py CHANGED Viewed

@@ -1,6 +1,5 @@
-# app.py
 import gradio as gr
-import torch, torchaudio, spaces
 from zonos.model import Zonos
 from zonos.conditioning import make_cond_dict
@@ -8,16 +7,23 @@ cpu = "cpu"
 model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device=cpu)
 def _speaker_embed(audio):
-    if audio is None:
-        return None
     sr, wav = audio
-    wav = torch.tensor(wav).unsqueeze(0)
     return model.make_speaker_embedding(wav, sr)
 @spaces.GPU
-def tts(text, language, speaker_audio, emotion_vec, speaking_rate, pitch_std):
     speaker = _speaker_embed(speaker_audio)
-    emotion = [float(x) for x in emotion_vec.split(",")] if emotion_vec else None
     model.to("cuda")
     with torch.no_grad():
         cond = make_cond_dict(
@@ -42,13 +48,20 @@ demo = gr.Interface(
         gr.Textbox(label="text"),
         gr.Dropdown(langs, value="en-us", label="language"),
         gr.Audio(type="numpy", label="speaker reference (optional)"),
-        gr.Textbox(value="0.3,0,0,0,0,0,0.2,0.5", label="emotion (8 comma-sep floats)"),
-        gr.Slider(0, 40, value=15, step=1, label="speaking_rate"),
-        gr.Slider(0, 400, value=20, step=1, label="pitch_std"),
     ],
     outputs=gr.Audio(label="generated speech"),
     title="zonos-v0.1 zerogpu tts",
 )
 if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
+import torch, numpy as np, spaces
 from zonos.model import Zonos
 from zonos.conditioning import make_cond_dict
 model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device=cpu)
 def _speaker_embed(audio):
+    if audio is None: return None
     sr, wav = audio
+    if wav.dtype.kind in "iu":
+        wav = wav.astype(np.float32) / np.iinfo(wav.dtype).max
+    else:
+        wav = wav.astype(np.float32)
+    wav = torch.from_numpy(wav).unsqueeze(0)
     return model.make_speaker_embedding(wav, sr)
 @spaces.GPU
+def tts(
+    text, language, speaker_audio,
+    happy, sad, disgust, fear, surprise, anger, other, neutral,
+    speaking_rate, pitch_std
+):
     speaker = _speaker_embed(speaker_audio)
+    emotion = [happy, sad, disgust, fear, surprise, anger, other, neutral]
     model.to("cuda")
     with torch.no_grad():
         cond = make_cond_dict(
         gr.Textbox(label="text"),
         gr.Dropdown(langs, value="en-us", label="language"),
         gr.Audio(type="numpy", label="speaker reference (optional)"),
+        gr.Slider(0, 1, 0.3, 0.05, label="happiness"),
+        gr.Slider(0, 1, 0.0, 0.05, label="sadness"),
+        gr.Slider(0, 1, 0.0, 0.05, label="disgust"),
+        gr.Slider(0, 1, 0.0, 0.05, label="fear"),
+        gr.Slider(0, 1, 0.0, 0.05, label="surprise"),
+        gr.Slider(0, 1, 0.0, 0.05, label="anger"),
+        gr.Slider(0, 1, 0.2, 0.05, label="other"),
+        gr.Slider(0, 1, 0.5, 0.05, label="neutral"),
+        gr.Slider(0, 40, 15, 1, label="speaking_rate"),
+        gr.Slider(0, 400, 20, 1, label="pitch_std"),
     ],
     outputs=gr.Audio(label="generated speech"),
     title="zonos-v0.1 zerogpu tts",
 )
 if __name__ == "__main__":
+    demo.launch(share=True)