Spaces:

yasserrmd
/

VibeVoice

Running on Zero

App Files Files Community

yasserrmd commited on 24 days ago

Commit

e873ae8

verified ·

1 Parent(s): 2565173

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -18

app.py CHANGED Viewed

@@ -76,11 +76,9 @@ class VibeVoiceDemo:
         if not script.strip():
             raise gr.Error("Please provide a script.")
-        if num_speakers < 1 or num_speakers > 4:
             raise gr.Error("Number of speakers must be 1–4.")
-        # collect speakers
         selected = [speaker_1, speaker_2, speaker_3, speaker_4][:num_speakers]
         for i, sp in enumerate(selected):
             if not sp or sp not in self.available_voices:
@@ -90,7 +88,6 @@ class VibeVoiceDemo:
         if any(len(v) == 0 for v in voice_samples):
             raise gr.Error("Failed to load one or more voice samples.")
-        # format script
         lines = script.strip().split("\n")
         formatted = []
         for i, line in enumerate(lines):
@@ -104,7 +101,6 @@ class VibeVoiceDemo:
                 formatted.append(f"Speaker {sp_id}: {line}")
         formatted_script = "\n".join(formatted)
-        # processor input
         inputs = self.processor(
             text=[formatted_script],
             voice_samples=[voice_samples],
@@ -119,48 +115,52 @@ class VibeVoiceDemo:
             tokenizer=self.processor.tokenizer,
             verbose=False
         )
-        # --- handle model output robustly ---
-        if hasattr(outputs, "audio"):
-            audio = outputs.audio
-        elif hasattr(outputs, "audios") and outputs.audios:
             audio = outputs.audios[0]
-        elif hasattr(outputs, "waveform"):
-            audio = outputs.waveform
         elif hasattr(outputs, "waveforms") and outputs.waveforms:
             audio = outputs.waveforms[0]
         elif hasattr(outputs, "speech_outputs") and outputs.speech_outputs:
             audio = outputs.speech_outputs[0]
         else:
-            raise gr.Error(f"Model did not return audio in expected format. Got attributes: {dir(outputs)}")
-        # convert to numpy
         if torch.is_tensor(audio):
             audio = audio.float().cpu().numpy()
         if audio.ndim > 1:
             audio = audio.squeeze()
         sample_rate = 24000
-        # ensure float32 for saving and returning
         audio = audio.astype("float32")
-        # save automatically to disk
         os.makedirs("outputs", exist_ok=True)
         from datetime import datetime
         import soundfile as sf
         timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
         file_path = os.path.join("outputs", f"podcast_{timestamp}.wav")
-        sf.write(file_path, audio, sample_rate)   # soundfile handles float32
         print(f"💾 Saved podcast to {file_path}")
         total_dur = len(audio) / sample_rate
-        log = f"✅ Generation complete in {time.time()-start:.1f}s, {total_dur:.1f}s audio\nSaved to {file_path}"
         self.is_generating = False
         return (sample_rate, audio), log
     def load_example_scripts(self):
         examples_dir = os.path.join(os.path.dirname(__file__), "text_examples")
         self.example_scripts = []

         if not script.strip():
             raise gr.Error("Please provide a script.")
+        if not (1 <= num_speakers <= 4):
             raise gr.Error("Number of speakers must be 1–4.")
         selected = [speaker_1, speaker_2, speaker_3, speaker_4][:num_speakers]
         for i, sp in enumerate(selected):
             if not sp or sp not in self.available_voices:
         if any(len(v) == 0 for v in voice_samples):
             raise gr.Error("Failed to load one or more voice samples.")
         lines = script.strip().split("\n")
         formatted = []
         for i, line in enumerate(lines):
                 formatted.append(f"Speaker {sp_id}: {line}")
         formatted_script = "\n".join(formatted)
         inputs = self.processor(
             text=[formatted_script],
             voice_samples=[voice_samples],
             tokenizer=self.processor.tokenizer,
             verbose=False
         )
+        gen_time = time.time() - start
+        print("DEBUG: outputs type:", type(outputs))
+        print("DEBUG: outputs dir:", dir(outputs))
+        audio = None
+        if hasattr(outputs, "audios") and outputs.audios:
             audio = outputs.audios[0]
+        elif hasattr(outputs, "audio"):
+            audio = outputs.audio
         elif hasattr(outputs, "waveforms") and outputs.waveforms:
             audio = outputs.waveforms[0]
+        elif hasattr(outputs, "waveform"):
+            audio = outputs.waveform
         elif hasattr(outputs, "speech_outputs") and outputs.speech_outputs:
             audio = outputs.speech_outputs[0]
         else:
+            raise gr.Error(f"No audio found in output. Check debug: {dir(outputs)}")
+        if audio is None:
+            raise gr.Error("Extracted audio is None — check model output structure.")
         if torch.is_tensor(audio):
             audio = audio.float().cpu().numpy()
         if audio.ndim > 1:
             audio = audio.squeeze()
         sample_rate = 24000
         audio = audio.astype("float32")
         os.makedirs("outputs", exist_ok=True)
         from datetime import datetime
         import soundfile as sf
         timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
         file_path = os.path.join("outputs", f"podcast_{timestamp}.wav")
+        sf.write(file_path, audio, sample_rate)
         print(f"💾 Saved podcast to {file_path}")
         total_dur = len(audio) / sample_rate
+        log = f"✅ Generation complete in {gen_time:.1f}s, {total_dur:.1f}s audio\nSaved to {file_path}"
         self.is_generating = False
         return (sample_rate, audio), log
     def load_example_scripts(self):
         examples_dir = os.path.join(os.path.dirname(__file__), "text_examples")
         self.example_scripts = []