NGHIA_Test_Edge_TTS_transcript_w_timestamp

Sleeping

App Files Files Community

cnph001 commited on May 13

Commit

8cebcbb

verified ·

1 Parent(s): 33573d8

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -7

app.py CHANGED Viewed

@@ -34,9 +34,9 @@ def apply_low_pass_filter(audio_segment, cutoff_freq, sample_rate, order=5):
     filtered_data_int16 = (filtered_data * (2**15 - 1)).astype(np.int16)
     filtered_audio = AudioSegment(filtered_data_int16.tobytes(),
-                                     frame_rate=sample_rate,
-                                     sample_width=audio_segment.sample_width,
-                                     channels=audio_segment.channels)
     return filtered_audio
@@ -111,7 +111,7 @@ async def generate_audio_with_voice_prefix(text_segment, default_voice, rate, pi
             processed_text = processed_text[len(prefix):].strip()  #this removes the Prefix and leave only number or text after it.
             break
     #match = re.search(r'([A-Za-z]+)-?(\d+)', processed_text)
-    match = re.search(r"^(-?\d+)\s*(.*)", processed_text)
     if match:
         #prefix_pitch = match.group(1)
         number = match.group(1)
@@ -121,7 +121,7 @@ async def generate_audio_with_voice_prefix(text_segment, default_voice, rate, pi
         #processed_text = re.sub(r'([A-Za-z]+)([-]?\d*)', '', processed_text, count=1).strip()
         processed_text = match.group(2)
     #elif detect:
-    #    processed_text = processed_text.lstrip('-0123456789').strip() # Remove potential leftover numbers
     if processed_text:
         rate_str = f"{current_rate:+d}%"
@@ -279,7 +279,7 @@ async def transcript_to_speech(transcript_text, voice, rate, pitch, speed_adjust
     final_audio = AudioSegment.silent(duration=max_end_time_ms, frame_rate=24000)
     for segment in timed_audio_segments:
         final_audio = final_audio.overlay(segment['audio'], position=segment['start'])
     # Apply the low-pass filter here
     cutoff_frequency = 3500  # 3.5 kHz (you can make this a user-configurable parameter later)
     filtered_final_audio = apply_low_pass_filter(final_audio, cutoff_frequency, final_audio.frame_rate)
@@ -348,4 +348,4 @@ async def create_demo():
 if __name__ == "__main__":
     demo = asyncio.run(create_demo())
-    demo.launch()

     filtered_data_int16 = (filtered_data * (2**15 - 1)).astype(np.int16)
     filtered_audio = AudioSegment(filtered_data_int16.tobytes(),
+                                 frame_rate=sample_rate,
+                                 sample_width=audio_segment.sample_width,
+                                 channels=audio_segment.channels)
     return filtered_audio
             processed_text = processed_text[len(prefix):].strip()  #this removes the Prefix and leave only number or text after it.
             break
     #match = re.search(r'([A-Za-z]+)-?(\d+)', processed_text)
+    match = re.search(r"^(-?\d+)\s*(.*)", processed_text)
     if match:
         #prefix_pitch = match.group(1)
         number = match.group(1)
         #processed_text = re.sub(r'([A-Za-z]+)([-]?\d*)', '', processed_text, count=1).strip()
         processed_text = match.group(2)
     #elif detect:
+    #       processed_text = processed_text.lstrip('-0123456789').strip() # Remove potential leftover numbers
     if processed_text:
         rate_str = f"{current_rate:+d}%"
     final_audio = AudioSegment.silent(duration=max_end_time_ms, frame_rate=24000)
     for segment in timed_audio_segments:
         final_audio = final_audio.overlay(segment['audio'], position=segment['start'])
     # Apply the low-pass filter here
     cutoff_frequency = 3500  # 3.5 kHz (you can make this a user-configurable parameter later)
     filtered_final_audio = apply_low_pass_filter(final_audio, cutoff_frequency, final_audio.frame_rate)
 if __name__ == "__main__":
     demo = asyncio.run(create_demo())
+    demo.launch()