Spaces:

mhenrichsen
/

tts

Running on Zero

App Files Files Community

mhenrhcsen commited on Jun 18

Commit

e13466b

1 Parent(s): 0f81137

Update app.py to change the model name to "syvai/tts-v0.3-finetuned", add a new example for the voice "sofie", and update the Gradio interface title and description to reflect the new version and additional voice capabilities.

Browse files

Files changed (1) hide show

app.py +12 -5

app.py CHANGED Viewed

@@ -14,7 +14,7 @@ print("Loading SNAC model...")
 snac_model = SNAC.from_pretrained("hubertsiuzdak/snac_24khz")
 snac_model = snac_model.to(device)
-model_name = "syvai/tts-v0.2-finetuned"
 # Download only model config and safetensors
 snapshot_download(
@@ -149,24 +149,31 @@ def generate_speech(text, voice, temperature, top_p, repetition_penalty, max_new
 # Examples for the UI
 examples = [
     ["Velkommen til Anna! Hov, det er mig der er Anna. Håber du kan lide min stemme.", "anna", 0.2, 0.95, 1.1, 1200],
     ["Spørger man lykke friis, der er tysklandskender og direktør i Tænketanken europa, så kan man kun gætte på årsagerne, men  er ikke gode venner med alle i regeringen.", "mic", 0.2, 0.95, 1.1, 1200],
     ["Det burde have været en formssag i Den Tyske Forbundsdag, men det endte som alt andet end det. For første gang i Forbundsrepublikkens historie fik kanslerkandidaten ikke nok stemmer til at sikre sig den fornemme titel som kansler, da der skulle stemmes i parlamentet.", "nic", 0.2, 0.95, 1.1, 2000],
 ]
 # Available voices
-VOICES = ["anna", "nic", "mic"]
 # Available Emotive Tags
 EMOTIVE_TAGS = []
 # Create Gradio interface
-with gr.Blocks(title="Syv.ai TTS v0.2") as demo:
     gr.Markdown(f"""
-    # 🎵 [Syv.ai TTS v0.2](https://huggingface.co/syvai/tts-v0.2-finetuned)
     Skriv din tekst (gerne kortere end 200 tegn) nedenfor og hør hvad den kan.
-    Vi har pt. kun 3 stemmer, og ingen måde at styre tone, grin eller andre paralinguistiske elementer. Vi arbejder dog på at udgive en model med bedre stemmestying.
     Syvai TTS er trænet på +1000 timer af dansk tale og bygger ovenpå en model fra [Orpheus TTS](https://huggingface.co/canopyai/Orpheus-TTS).
     """)

 snac_model = SNAC.from_pretrained("hubertsiuzdak/snac_24khz")
 snac_model = snac_model.to(device)
+model_name = "syvai/tts-v0.3-finetuned"
 # Download only model config and safetensors
 snapshot_download(
 # Examples for the UI
 examples = [
+    ["Hej, mit navn er Sofie. <um> Jeg er 20 år gammel og studerer på KU. <chuckle> Jeg elsker at læse og spise is. Jeg elsker at grine. <laugh>. Jeg håber snart det bliver bedre vejr. <sigh>", "sofie", 0.2, 0.95, 1.1, 1200],
     ["Velkommen til Anna! Hov, det er mig der er Anna. Håber du kan lide min stemme.", "anna", 0.2, 0.95, 1.1, 1200],
     ["Spørger man lykke friis, der er tysklandskender og direktør i Tænketanken europa, så kan man kun gætte på årsagerne, men  er ikke gode venner med alle i regeringen.", "mic", 0.2, 0.95, 1.1, 1200],
     ["Det burde have været en formssag i Den Tyske Forbundsdag, men det endte som alt andet end det. For første gang i Forbundsrepublikkens historie fik kanslerkandidaten ikke nok stemmer til at sikre sig den fornemme titel som kansler, da der skulle stemmes i parlamentet.", "nic", 0.2, 0.95, 1.1, 2000],
 ]
 # Available voices
+VOICES = ["anna", "nic", "mic", "sofie"]
 # Available Emotive Tags
 EMOTIVE_TAGS = []
 # Create Gradio interface
+with gr.Blocks(title="Syv.ai TTS v0.3") as demo:
     gr.Markdown(f"""
+    # 🎵 [Syv.ai TTS v0.3](https://huggingface.co/syvai/tts-v0.3-finetuned)
     Skriv din tekst (gerne kortere end 200 tegn) nedenfor og hør hvad den kan.
+    Vi har pt. 4 stemmer, og der kommer løbende flere til.
+    Sofie er vores nyeste stemme, og er trænet til at kunne udtrykke sig med grin, "øh" og andre paralinguistiske elementer.
+    Anna er vores første syntetiske stemme, dvs. ikke en rigtigt person, men distilleret fra en anden model.
+    Mic og Nic er rigtige personer, men er ikke trænet til at udtrykke sig med grin, "øh" og andre paralinguistiske elementer. De er gode til at oplæse tekster.
     Syvai TTS er trænet på +1000 timer af dansk tale og bygger ovenpå en model fra [Orpheus TTS](https://huggingface.co/canopyai/Orpheus-TTS).
     """)