podcast-generator

Sleeping

bluenevus commited on Apr 16

Commit

38b40d2

verified ·

1 Parent(s): 29aab57

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -142,18 +142,18 @@ def generate_speech(text, voice1, voice2, temperature, top_p, repetition_penalty
     try:
         progress(0.1, "Processing text...")
-        lines = text.split('\n')
         audio_samples = []
-        for i, line in enumerate(lines):
-            if not line.strip():
                 continue
             voice = voice1 if num_hosts == "1" or i % 2 == 0 else voice2
-            input_ids, attention_mask = process_prompt(line, voice, tokenizer, device)
-            progress(0.3, f"Generating speech tokens for line {i+1}...")
             with torch.no_grad():
                 generated_ids = model.generate(
                     input_ids,
@@ -167,12 +167,12 @@ def generate_speech(text, voice1, voice2, temperature, top_p, repetition_penalty
                     eos_token_id=128258,
                 )
-            progress(0.6, f"Processing speech tokens for line {i+1}...")
             code_list = parse_output(generated_ids)
-            progress(0.8, f"Converting line {i+1} to audio...")
-            line_audio = redistribute_codes(code_list, snac_model)
-            audio_samples.append(line_audio)
         final_audio = np.concatenate(audio_samples)

     try:
         progress(0.1, "Processing text...")
+        paragraphs = text.split('\n\n')  # Split by double newline
         audio_samples = []
+        for i, paragraph in enumerate(paragraphs):
+            if not paragraph.strip():
                 continue
             voice = voice1 if num_hosts == "1" or i % 2 == 0 else voice2
+            input_ids, attention_mask = process_prompt(paragraph, voice, tokenizer, device)
+            progress(0.3, f"Generating speech tokens for paragraph {i+1}...")
             with torch.no_grad():
                 generated_ids = model.generate(
                     input_ids,
                     eos_token_id=128258,
                 )
+            progress(0.6, f"Processing speech tokens for paragraph {i+1}...")
             code_list = parse_output(generated_ids)
+            progress(0.8, f"Converting paragraph {i+1} to audio...")
+            paragraph_audio = redistribute_codes(code_list, snac_model)
+            audio_samples.append(paragraph_audio)
         final_audio = np.concatenate(audio_samples)