Spaces:

MicroHealth
/

AV-to-transcripts

Paused

App Files Files Community

bluenevus commited on Apr 22

Commit

ae49d5b

verified ·

1 Parent(s): f1f904a

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -15

app.py CHANGED Viewed

@@ -79,20 +79,15 @@ def format_transcript(transcript):
 def transcribe_audio(audio_file):
     try:
-        # Load the entire audio file
         print("Loading audio file...")
         audio_input, sr = librosa.load(audio_file, sr=16000)
-        # Convert to float32 numpy array
         audio_input = audio_input.astype(np.float32)
         print(f"Audio duration: {len(audio_input) / sr:.2f} seconds")
-        # Process in chunks of 30 seconds with overlap
         chunk_length = 30 * sr
-        overlap = 5 * sr  # 5 seconds overlap
         transcriptions = []
         print("Starting transcription...")
         for i in range(0, len(audio_input), chunk_length - overlap):
             chunk = audio_input[i:i+chunk_length]
@@ -102,21 +97,34 @@ def transcribe_audio(audio_file):
             transcriptions.extend(transcription)
             print(f"Processed {i / sr:.2f} to {(i + chunk_length) / sr:.2f} seconds")
-        # Join all transcriptions
         full_transcription = " ".join(transcriptions)
         print(f"Transcription complete. Full transcription length: {len(full_transcription)} characters")
-        # Apply spelling correction and formatting
-        print("Applying spelling correction and formatting...")
-        full_transcription = correct_spelling(full_transcription)
-        full_transcription = format_transcript(full_transcription)
-        return full_transcription
     except Exception as e:
         print(f"Error in transcribe_audio: {str(e)}")
         raise
 def transcribe_video(url):
     try:
         print(f"Attempting to download audio from URL: {url}")

 def transcribe_audio(audio_file):
     try:
         print("Loading audio file...")
         audio_input, sr = librosa.load(audio_file, sr=16000)
         audio_input = audio_input.astype(np.float32)
         print(f"Audio duration: {len(audio_input) / sr:.2f} seconds")
         chunk_length = 30 * sr
+        overlap = 5 * sr
         transcriptions = []
         print("Starting transcription...")
         for i in range(0, len(audio_input), chunk_length - overlap):
             chunk = audio_input[i:i+chunk_length]
             transcriptions.extend(transcription)
             print(f"Processed {i / sr:.2f} to {(i + chunk_length) / sr:.2f} seconds")
         full_transcription = " ".join(transcriptions)
         print(f"Transcription complete. Full transcription length: {len(full_transcription)} characters")
+        print("Applying formatting and paragraph breaks...")
+        formatted_transcription = format_transcript_with_breaks(full_transcription)
+        return formatted_transcription
     except Exception as e:
         print(f"Error in transcribe_audio: {str(e)}")
         raise
+def format_transcript_with_breaks(transcript):
+    # Split into sentences
+    sentences = re.split('(?<=[.!?]) +', transcript)
+    paragraphs = []
+    current_paragraph = []
+    for sentence in sentences:
+        current_paragraph.append(sentence)
+        if len(current_paragraph) >= 3:  # Adjust this number to control paragraph size
+            paragraphs.append(' '.join(current_paragraph))
+            current_paragraph = []
+    if current_paragraph:
+        paragraphs.append(' '.join(current_paragraph))
+    return '\n\n'.join(paragraphs)
 def transcribe_video(url):
     try:
         print(f"Attempting to download audio from URL: {url}")