Spaces:

MicroHealth
/

ai-podcast-builder

Paused

App Files Files Community

bluenevus commited on Apr 15

Commit

69bc32b

verified ·

1 Parent(s): ade86df

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -30

app.py CHANGED Viewed

@@ -166,17 +166,13 @@ def redistribute_codes(code_list, snac_model):
         return None
 @spaces.GPU()
-def generate_speech(text, voice, temperature, top_p, repetition_penalty, max_new_tokens, progress=gr.Progress()):
     if not text.strip():
-        logger.warning("Empty text input. Skipping speech generation.")
         return None
     try:
-        progress(0.1, "Processing text...")
         input_ids, attention_mask = process_prompt(text, voice, tokenizer, device)
-        logger.info(f"Input shape: {input_ids.shape}")
-        progress(0.3, "Generating speech tokens...")
         with torch.no_grad():
             generated_ids = model.generate(
                 input_ids=input_ids,
@@ -189,28 +185,10 @@ def generate_speech(text, voice, temperature, top_p, repetition_penalty, max_new
                 num_return_sequences=1,
                 eos_token_id=128258,
             )
-        logger.info(f"Generated shape: {generated_ids.shape}")
-        progress(0.6, "Processing speech tokens...")
         code_list = parse_output(generated_ids)
-        logger.info(f"Code list length: {len(code_list)}")
-        if not code_list:
-            logger.warning("No valid code list generated. Skipping audio conversion.")
-            return None
-        progress(0.8, "Converting to audio...")
         audio_samples = redistribute_codes(code_list, snac_model)
-        if audio_samples is None:
-            logger.warning("Audio samples is None.")
-            return None
-        if len(audio_samples) == 0:
-            logger.warning("Audio samples is empty.")
-            return None
-        logger.info(f"Audio samples shape: {audio_samples.shape}")
         return (24000, audio_samples)  # Return sample rate and audio
     except Exception as e:
         logger.error(f"Error generating speech: {e}", exc_info=True)
@@ -224,13 +202,10 @@ def render_podcast(api_key, script, voice1, voice2, num_hosts):
         for i, line in enumerate(lines):
             voice = voice1 if num_hosts == 1 or i % 2 == 0 else voice2
-            try:
-                result = generate_speech(line, voice, temperature=0.6, top_p=0.95, repetition_penalty=1.1, max_new_tokens=1200)
-                if result is not None:
-                    sample_rate, audio = result
-                    audio_segments.append(audio)
-            except Exception as e:
-                logger.error(f"Error processing audio segment: {str(e)}")
         if not audio_segments:
             logger.warning("No valid audio segments were generated.")

         return None
 @spaces.GPU()
+def generate_speech(text, voice, temperature, top_p, repetition_penalty, max_new_tokens):
     if not text.strip():
         return None
     try:
         input_ids, attention_mask = process_prompt(text, voice, tokenizer, device)
         with torch.no_grad():
             generated_ids = model.generate(
                 input_ids=input_ids,
                 num_return_sequences=1,
                 eos_token_id=128258,
             )
         code_list = parse_output(generated_ids)
         audio_samples = redistribute_codes(code_list, snac_model)
         return (24000, audio_samples)  # Return sample rate and audio
     except Exception as e:
         logger.error(f"Error generating speech: {e}", exc_info=True)
         for i, line in enumerate(lines):
             voice = voice1 if num_hosts == 1 or i % 2 == 0 else voice2
+            result = generate_speech(line, voice, temperature=0.6, top_p=0.95, repetition_penalty=1.1, max_new_tokens=1200)
+            if result is not None:
+                sample_rate, audio = result
+                audio_segments.append(audio)
         if not audio_segments:
             logger.warning("No valid audio segments were generated.")