Spaces:

Staticaliza
/

Zero-5

Paused

App Files Files Community

Staticaliza commited on May 24

Commit

3d58a26

verified ·

1 Parent(s): 193e78a

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -233

app.py CHANGED Viewed

@@ -1,100 +1,3 @@
-# # app.py  ── Zonos TTS (transformer only, minimal UI)
-# import os, tempfile, torch, numpy as np, gradio as gr, torchaudio, soundfile as sf, spaces
-# from zonos.model import Zonos
-# from zonos.conditioning import make_cond_dict, supported_language_codes
-# # disable Torch-Inductor (keeps Spaces happy)
-# os.environ["TORCH_COMPILE_DISABLE"] = os.environ["TORCHINDUCTOR_DISABLE"] = "1"
-# torch._dynamo.disable()
-# torch.compile = lambda f,*a,**k: f            # no-op
-# device = "cuda"
-# model  = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device=device).eval()
-# # ─────────────────── helpers ────────────────────
-# def _speaker_embed(aud):
-#     if aud is None:
-#         return None
-#     sr, wav = aud                                         # gradio returns (sr, np.ndarray)
-#     if wav.dtype.kind in "iu":                            # int → float
-#         wav = wav.astype(np.float32) / np.iinfo(wav.dtype).max
-#     wav_t = torch.from_numpy(wav).unsqueeze(0)            # (1,C,N)
-#     return model.make_speaker_embedding(wav_t, sr)
-# # ─────────────────── inference ───────────────────
-# @spaces.GPU
-# def tts(text, lang, speaker,
-#         e1,e2,e3,e4,e5,e6,e7,e8,
-#         vq, fmax, pitch, rate,
-#         cfg, minp, tokens):
-#     emotion = torch.tensor([float(x) for x in [e1,e2,e3,e4,e5,e6,e7,e8]],
-#                            device=device, dtype=torch.float32)
-#     cond = make_cond_dict(
-#         text=text,
-#         language=lang,
-#         speaker=_speaker_embed(speaker),
-#         emotion=emotion,
-#         vqscore_8=torch.tensor([vq]*8, device=device).unsqueeze(0),
-#         fmax=float(fmax),
-#         pitch_std=float(pitch),
-#         speaking_rate=float(rate),
-#         device=device
-#     )
-#     with torch.no_grad():
-#         codes = model.generate(model.prepare_conditioning(cond),
-#                                max_new_tokens=int(tokens),
-#                                cfg_scale=float(cfg),
-#                                sampling_params=dict(min_p=float(minp)))
-#         wav = model.autoencoder.decode(codes)[0]          # (C,N) torch
-#         wav = wav.cpu().clamp_(-1,1).numpy()              # → numpy
-#     # >>> FIX <<<  ensure (N,) or (N, C) for libsndfile
-#     wav = np.squeeze(wav)
-#     if wav.ndim == 2:             # currently (C,N)
-#         wav = wav.T               # → (N,C)
-#     with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
-#         sf.write(tmp.name, wav,
-#                  model.autoencoder.sampling_rate,
-#                  format="WAV", subtype="PCM_16")
-#     return tmp.name
-# # ─────────────────── UI ──────────────────────────
-# langs = supported_language_codes
-# with gr.Blocks() as demo:
-#     text = gr.Textbox(label="Text")
-#     lang = gr.Dropdown(langs, value="en-us", label="Language")
-#     speaker = gr.Audio(type="numpy", label="Speaker ref (optional)")
-#     # emotion sliders (all default 0)
-#     emotions = []
-#     for label in ["happiness","sadness","disgust","fear",
-#                   "surprise","anger","other","neutral"]:
-#         emotions.append(gr.Slider(0,1,0.0,0.05,label=label))
-#     vq   = gr.Slider(0.5,0.9,0.78,0.01,label="clarity (vq)")
-#     fmax = gr.Slider(0,24000,24000,100,label="fmax (Hz)")
-#     pitch= gr.Slider(0,300,45,1,label="pitch variation")
-#     rate = gr.Slider(5,30,15,0.5,label="speaking rate")
-#     cfg  = gr.Slider(1.1,5,2,0.1,label="guidance scale")
-#     minp = gr.Slider(0,1,0.15,0.01,label="min-p")
-#     tokens = gr.Slider(0,3000,300,1,label="tokens (≈steps)")
-#     out = gr.Audio(type="filepath", label="Output")
-#     gr.Button("Generate").click(
-#         tts,
-#         inputs=[text, lang, speaker, *emotions,
-#                 vq, fmax, pitch, rate, cfg, minp, tokens],
-#         outputs=out
-#     )
-# if __name__ == "__main__":
-#     demo.launch()
 import os
 import shlex
 import subprocess
@@ -122,12 +25,31 @@ from os import getenv
 from zonos.model import Zonos
 from zonos.conditioning import make_cond_dict, supported_language_codes
 device = "cuda"
 MODEL_NAMES = ["Zyphra/Zonos-v0.1-transformer", "Zyphra/Zonos-v0.1-hybrid"]
 MODELS = {name: Zonos.from_pretrained(name, device=device) for name in MODEL_NAMES}
 for model in MODELS.values():
     model.requires_grad_(False).eval()
 def update_ui(model_choice):
     """
@@ -290,144 +212,9 @@ def generate_audio(
         wav_out = wav_out[0:1, :]
     return (sr_out, wav_out.squeeze().numpy()), seed
-# Custom CSS for pastel gradient background and enhanced UI
-custom_css = """
-.gradio-container {
-    background: linear-gradient(135deg, #f3e7ff, #e6f0ff, #ffe6f2, #e6fff9);
-    background-size: 400% 400%;
-    animation: gradient 15s ease infinite;
-}
-@keyframes gradient {
-    0% {
-        background-position: 0% 50%;
-    }
-    50% {
-        background-position: 100% 50%;
-    }
-    100% {
-        background-position: 0% 50%;
-    }
-}
-.container {
-    max-width: 1200px;
-    margin: 0 auto;
-    padding: 20px;
-}
-.panel {
-    background-color: rgba(255, 255, 255, 0.7);
-    border-radius: 16px;
-    padding: 20px;
-    box-shadow: 0 4px 12px rgba(0, 0, 0, 0.08);
-    margin-bottom: 16px;
-    backdrop-filter: blur(5px);
-    transition: all 0.3s ease;
-}
-.panel:hover {
-    box-shadow: 0 6px 16px rgba(0, 0, 0, 0.12);
-    transform: translateY(-2px);
-}
-.title {
-    font-size: 1.2em;
-    font-weight: 600;
-    margin-bottom: 12px;
-    color: #6a3ea1;
-    border-bottom: 2px solid #f0e6ff;
-    padding-bottom: 8px;
-}
-.slider-container {
-    background-color: rgba(255, 255, 255, 0.5);
-    border-radius: 10px;
-    padding: 10px;
-    margin: 5px 0;
-}
-/* Make sliders more appealing */
-input[type=range] {
-    height: 5px;
-    appearance: none;
-    width: 100%;
-    border-radius: 3px;
-    background: linear-gradient(90deg, #9c83e0, #83b1e0);
-}
-.generate-button {
-    background: linear-gradient(90deg, #a673ff, #7c4dff);
-    color: white;
-    border: none;
-    border-radius: 8px;
-    padding: 12px 24px;
-    font-size: 16px;
-    font-weight: 500;
-    cursor: pointer;
-    transition: all 0.3s ease;
-    box-shadow: 0 4px 10px rgba(124, 77, 255, 0.2);
-    display: block;
-    width: 100%;
-    margin: 20px 0;
-}
-.generate-button:hover {
-    background: linear-gradient(90deg, #9c5eff, #6a3aff);
-    box-shadow: 0 6px 15px rgba(124, 77, 255, 0.3);
-    transform: translateY(-2px);
-}
-/* Tabs styling */
-.tabs {
-    display: flex;
-    border-bottom: 1px solid #e0e0e0;
-    margin-bottom: 20px;
-}
-.tab {
-    padding: 10px 20px;
-    cursor: pointer;
-    transition: all 0.3s ease;
-    background-color: transparent;
-    border: none;
-    color: #666;
-}
-.tab.active {
-    color: #7c4dff;
-    border-bottom: 3px solid #7c4dff;
-    font-weight: 600;
-}
-/* Emotion sliders container */
-.emotion-grid {
-    display: grid;
-    grid-template-columns: repeat(4, 1fr);
-    gap: 12px;
-}
-/* Header styling */
-.app-header {
-    text-align: center;
-    margin-bottom: 25px;
-}
-.app-header h1 {
-    font-size: 2.5em;
-    color: #6a3ea1;
-    margin-bottom: 8px;
-    font-weight: 700;
-}
-.app-header p {
-    font-size: 1.1em;
-    color: #666;
-    margin-bottom: 20px;
-}
-/* Audio player styling */
-.audio-output {
-    margin-top: 20px;
-}
-/* Make output area more prominent */
-.output-container {
-    background-color: rgba(255, 255, 255, 0.85);
-    border-radius: 16px;
-    padding: 24px;
-    box-shadow: 0 8px 18px rgba(0, 0, 0, 0.1);
-    margin-top: 20px;
-}
-"""
 def build_interface():
     # Build interface with enhanced visual elements and layout
-    with gr.Blocks(css=custom_css, theme=gr.themes.Soft()) as demo:
         # Header section
         with gr.Column(elem_classes="app-header"):
             gr.Markdown("# ✨ Zonos Text-to-Speech Generator ✨")

 import os
 import shlex
 import subprocess
 from zonos.model import Zonos
 from zonos.conditioning import make_cond_dict, supported_language_codes
+# 1. hard-kill torch.compile / dynamo / inductor so they never run
+os.environ["TORCH_COMPILE_DISABLE"] = "1"
+os.environ["TORCHINDUCTOR_DISABLE"] = "1"
+os.environ["TORCHDYNAMO_DISABLE"] = "1"          # <- the one that actually blocks torch._dynamo
+os.environ["TORCHDYNAMO_SUPPRESS_ERRORS"] = "True"  # fall back to eager if something still slips through  :contentReference[oaicite:1]{index=1}
+torch._dynamo.disable()        # guard for older versions
+torch.compile = lambda f,*_,**__: f   # no-op wrapper
 device = "cuda"
 MODEL_NAMES = ["Zyphra/Zonos-v0.1-transformer", "Zyphra/Zonos-v0.1-hybrid"]
 MODELS = {name: Zonos.from_pretrained(name, device=device) for name in MODEL_NAMES}
 for model in MODELS.values():
     model.requires_grad_(False).eval()
+def _patch_cuda_props():
+    if torch.cuda.is_available():
+        for i in range(torch.cuda.device_count()):
+            p = torch.cuda.get_device_properties(i)
+            if not hasattr(p, "regs_per_multiprocessor"):
+                setattr(p, "regs_per_multiprocessor", 65536)
+            if not hasattr(p, "max_threads_per_multi_processor"):
+                setattr(p, "max_threads_per_multi_processor", 2048)
+_patch_cuda_props()
 def update_ui(model_choice):
     """
         wav_out = wav_out[0:1, :]
     return (sr_out, wav_out.squeeze().numpy()), seed
 def build_interface():
     # Build interface with enhanced visual elements and layout
+    with gr.Blocks() as demo:
         # Header section
         with gr.Column(elem_classes="app-header"):
             gr.Markdown("# ✨ Zonos Text-to-Speech Generator ✨")