Edge_TTS_NGHIA_transcript

Sleeping

App Files Files Community

cnph001 commited on May 17

Commit

a765a16

verified ·

1 Parent(s): 08f8e97

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -6

app.py CHANGED Viewed

@@ -17,6 +17,12 @@ default_voice_short= ""
 check1 = False  # set global variable to check to see if process_text is begin of transcript line or not.
 def strip_silence(audio: AudioSegment, silence_thresh=-40, min_silence_len=100, silence_padding_ms=100):
     from pydub.silence import detect_nonsilent
     # Detect non-silent regions
     nonsilent = detect_nonsilent(audio, min_silence_len=min_silence_len, silence_thresh=silence_thresh)
@@ -137,11 +143,11 @@ async def generate_audio_with_voice_prefix(text_segment, default_voice, rate, pi
                 audio = AudioSegment.from_mp3(audio_path)
                 if check1:
-                    print(f"First part of sentence - long silence")
                     audio = strip_silence(audio, silence_thresh=-40, min_silence_len=50, silence_padding_ms=50)  ##silence between sentences
                 else:
-                    audio = strip_silence(audio, silence_thresh=-40, min_silence_len=50, silence_padding_ms=20)  ##less silence for mid-sentence segments
-                    print(f"2nd part of sentence - long silence")
                 stripped_path = tempfile.mktemp(suffix=".mp3")
                 audio.export(stripped_path, format="mp3")
                 return stripped_path
@@ -180,9 +186,8 @@ async def process_transcript_line(line, default_voice, rate, pitch):
                 process_next = not process_next
                 continue
             if process_next and part.strip():
-                if check1:
-                    # Skip the first iteration logic here if needed
-                    check1 = False  # After first iteration, set it to False
                 audio_path = await generate_audio_with_voice_prefix(part, default_voice, rate, pitch)
                 if audio_path:
                     audio_segments.append(audio_path)

 check1 = False  # set global variable to check to see if process_text is begin of transcript line or not.
 def strip_silence(audio: AudioSegment, silence_thresh=-40, min_silence_len=100, silence_padding_ms=100):
+    # Debugging: print input arguments
+    print(f"Audio length: {len(audio)} ms")
+    print(f"Silence threshold: {silence_thresh} dB")
+    print(f"Minimum silence length: {min_silence_len} ms")
+    print(f"Silence padding: {silence_padding_ms} ms")
     from pydub.silence import detect_nonsilent
     # Detect non-silent regions
     nonsilent = detect_nonsilent(audio, min_silence_len=min_silence_len, silence_thresh=silence_thresh)
                 audio = AudioSegment.from_mp3(audio_path)
                 if check1:
+                    print(f"not last part of sentence - SHORT silence")
                     audio = strip_silence(audio, silence_thresh=-40, min_silence_len=50, silence_padding_ms=50)  ##silence between sentences
                 else:
+                    audio = strip_silence(audio, silence_thresh=-40, min_silence_len=50, silence_padding_ms=100)  ##less silence for mid-sentence segments
+                    print(f"Last part of sentence - long silence")
                 stripped_path = tempfile.mktemp(suffix=".mp3")
                 audio.export(stripped_path, format="mp3")
                 return stripped_path
                 process_next = not process_next
                 continue
             if process_next and part.strip():
+                if if part == split_parts[-1]: # check if this is laster iteration,
+                    check1 = False             # set it to False
                 audio_path = await generate_audio_with_voice_prefix(part, default_voice, rate, pitch)
                 if audio_path:
                     audio_segments.append(audio_path)