podcast-generator

Sleeping

App Files Files Community

bluenevus commited on Apr 16

Commit

180ce7d

verified ·

1 Parent(s): 92bd40b

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -13

app.py CHANGED Viewed

@@ -141,9 +141,7 @@ def generate_speech(text, voice1, voice2, temperature, top_p, repetition_penalty
         return None
     try:
-        # Load the intro/outro music
         music = AudioSegment.from_mp3("Maiko-intro-outro.mp3")
-        # Resample music to 24000 Hz to match speech
         music = music.set_frame_rate(24000)
         progress(0.1, "Processing text...")
@@ -154,10 +152,7 @@ def generate_speech(text, voice1, voice2, temperature, top_p, repetition_penalty
             if not line.strip():
                 continue
-            if num_hosts == "2":
-                voice = voice1 if i % 2 == 0 else voice2
-            else:
-                voice = voice1
             input_ids, attention_mask = process_prompt(line, voice, tokenizer, device)
@@ -182,10 +177,8 @@ def generate_speech(text, voice1, voice2, temperature, top_p, repetition_penalty
             line_audio = redistribute_codes(code_list, snac_model)
             audio_samples.append(line_audio)
-        # Concatenate all audio samples
         final_audio = np.concatenate(audio_samples)
-        # Convert numpy array to AudioSegment
         speech_audio = AudioSegment(
             final_audio.tobytes(),
             frame_rate=24000,
@@ -193,17 +186,13 @@ def generate_speech(text, voice1, voice2, temperature, top_p, repetition_penalty
             channels=1
         )
-        # Combine intro, speech, and outro
         combined_audio = music + speech_audio + music
-        # Convert back to numpy array
         combined_numpy = np.array(combined_audio.get_array_of_samples(), dtype=np.float32)
-        # Normalize the audio
         combined_numpy = np.int16(combined_numpy / np.max(np.abs(combined_numpy)) * 32767)
-        # Add a check for 15-second limitation
-        max_samples = 24000 * 15  # 15 seconds at 24kHz sample rate
         if len(combined_numpy) > max_samples:
             combined_numpy = combined_numpy[:max_samples]

         return None
     try:
         music = AudioSegment.from_mp3("Maiko-intro-outro.mp3")
         music = music.set_frame_rate(24000)
         progress(0.1, "Processing text...")
             if not line.strip():
                 continue
+            voice = voice1 if num_hosts == "1" or i % 2 == 0 else voice2
             input_ids, attention_mask = process_prompt(line, voice, tokenizer, device)
             line_audio = redistribute_codes(code_list, snac_model)
             audio_samples.append(line_audio)
         final_audio = np.concatenate(audio_samples)
         speech_audio = AudioSegment(
             final_audio.tobytes(),
             frame_rate=24000,
             channels=1
         )
         combined_audio = music + speech_audio + music
         combined_numpy = np.array(combined_audio.get_array_of_samples(), dtype=np.float32)
         combined_numpy = np.int16(combined_numpy / np.max(np.abs(combined_numpy)) * 32767)
+        max_samples = 24000 * 15
         if len(combined_numpy) > max_samples:
             combined_numpy = combined_numpy[:max_samples]