Edge_TTS_NGHIA_transcript

Sleeping

App Files Files Community

cnph001 commited on May 13

Commit

18e62e9

verified ·

1 Parent(s): 2136be9

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -16

app.py CHANGED Viewed

@@ -202,6 +202,8 @@ async def transcript_to_speech(transcript_text, voice, rate, pitch):
     timed_audio_segments = []
     max_end_time_ms = 0
     previous_end_time_ms = 0
     for i, line in enumerate(lines):
         start_time, audio_paths = await process_transcript_line(line, voice, rate, pitch)
@@ -220,24 +222,13 @@ async def transcript_to_speech(transcript_text, voice, rate, pitch):
                 intended_start_time = start_time
                 if i > 0:
-                    prev_line_match = re.match(r'(\d{2}):(\d{2}):(\d{2}),(\d{3})\s+.*', lines[i-1])
-                    if prev_line_match:
-                        prev_h, prev_m, prev_s, prev_ms = prev_line_match.groups()
-                        previous_start_time_ms = (
-                            int(prev_h) * 3600000 +
-                            int(prev_m) * 60000 +
-                            int(prev_s) * 1000 +
-                            int(prev_ms)
-                        )
-                        time_difference = start_time - previous_start_time_ms
-                        # print(f"current_audio_duration:{current_audio_duration}, time_difference:{time_difference}, previous_end_time_ms:{previous_end_time_ms}, start_time:{start_time}")
-                        if current_audio_duration > time_difference:
-                            intended_start_time = previous_end_time_ms
-                        # print(f"intended_start_time:{intended_start_time}")
-                else:
-                    intended_start_time = start_time
                 timed_audio_segments.append({'start': intended_start_time, 'audio': combined_line_audio})
                 previous_end_time_ms = max(previous_end_time_ms, intended_start_time + current_audio_duration)
                 max_end_time_ms = max(max_end_time_ms, previous_end_time_ms)
         elif audio_paths:

     timed_audio_segments = []
     max_end_time_ms = 0
     previous_end_time_ms = 0
+    previous_start_time_ms = 0 # Keep track of the *start* time of the previous segment
     for i, line in enumerate(lines):
         start_time, audio_paths = await process_transcript_line(line, voice, rate, pitch)
                 intended_start_time = start_time
                 if i > 0:
+                    time_difference = start_time - previous_start_time_ms
+                    if current_audio_duration > time_difference:
+                        intended_start_time = previous_end_time_ms
                 timed_audio_segments.append({'start': intended_start_time, 'audio': combined_line_audio})
+                previous_start_time_ms = start_time #update previous start time
                 previous_end_time_ms = max(previous_end_time_ms, intended_start_time + current_audio_duration)
                 max_end_time_ms = max(max_end_time_ms, previous_end_time_ms)
         elif audio_paths: