Spaces:

PuristanLabs1
/

VocalWeb

Running on Zero

PuristanLabs1 commited on Feb 22

Commit

a0dfdc4

verified ·

1 Parent(s): 7eb5f41

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,3 +1,5 @@
 import gradio as gr
 import trafilatura
 from trafilatura import fetch_url, extract
@@ -15,7 +17,8 @@ import nltk
 nltk.download("punkt")
 # Initialize KokoroTTS with default English
-kokoro_tts = KPipeline(lang_code='a')  # 'a' is for American English
 # Supported TTS Languages
 SUPPORTED_TTS_LANGUAGES = {
@@ -101,8 +104,11 @@ def detect_language(text):
         return "en"  # Default to English if detection fails
 ### 4️⃣ TTS Functionality (KokoroTTS)
 def generate_audio_kokoro(text, lang):
     """Generate speech using KokoroTTS for supported languages."""
     lang_code = SUPPORTED_TTS_LANGUAGES.get(lang, "a")  # Default to English
     generator = kokoro_tts(text, voice="af_bella", speed=1, split_pattern=r'\n+')
     # 3. Specify Device
@@ -118,6 +124,8 @@ def generate_audio_kokoro(text, lang):
 # Concatenate all audio data into a single array
     full_audio = np.concatenate(audio_data_list)
     output_file = f"audio_{lang}.wav"
     sf.write(output_file, full, 24000)  # Save as WAV file

+import spaces  # Import spaces first to avoid CUDA initialization issues
+import os
 import gradio as gr
 import trafilatura
 from trafilatura import fetch_url, extract
 nltk.download("punkt")
 # Initialize KokoroTTS with default English
+#kokoro_tts = KPipeline(lang_code='a')  # 'a' is for American English
+kokoro_tts = KPipeline(lang_code='a', device="cpu")  # Load initially on CPU
 # Supported TTS Languages
 SUPPORTED_TTS_LANGUAGES = {
         return "en"  # Default to English if detection fails
 ### 4️⃣ TTS Functionality (KokoroTTS)
+@spaces.GPU  # Allocate GPU dynamically
 def generate_audio_kokoro(text, lang):
     """Generate speech using KokoroTTS for supported languages."""
+    global kokoro_tts  # Access the preloaded model
+    kokoro_tts.device = "cuda"
     lang_code = SUPPORTED_TTS_LANGUAGES.get(lang, "a")  # Default to English
     generator = kokoro_tts(text, voice="af_bella", speed=1, split_pattern=r'\n+')
     # 3. Specify Device
 # Concatenate all audio data into a single array
     full_audio = np.concatenate(audio_data_list)
+    # Move model back to CPU after processing
+    kokoro_tts.device = "cpu"
     output_file = f"audio_{lang}.wav"
     sf.write(output_file, full, 24000)  # Save as WAV file