Spaces:

aryankeesara
/

audiosummarymodel

Sleeping

App Files Files Community

Cryptic commited on Oct 22, 2024

Commit

61bd7e7

1 Parent(s): cb9426c

Test2

Browse files

Files changed (1) hide show

app.py +50 -15

app.py CHANGED Viewed

@@ -25,7 +25,8 @@ def load_models():
         models = {
             'transcriber': pipeline("automatic-speech-recognition",
                                  model="openai/whisper-tiny.en",
-                                 device=device),
             'summarizer': pipeline("summarization",
                                 model="sshleifer/distilbart-cnn-12-6",
                                 device=device)
@@ -60,25 +61,58 @@ def process_audio(audio_path, models):
         with st.spinner('Converting audio format...'):
             temp_wav_path = load_and_convert_audio(audio_path)
-        # Transcription
         with st.spinner('Transcribing audio...'):
-            results['transcription'] = models['transcriber'](temp_wav_path)["text"]
-        # Summarization
         with st.spinner('Generating summary...'):
-            # Preprocess text
             text = results['transcription']
-            num_words = len(text.split())
-            max_length = min(num_words, 1024)
-            max_length = int(max_length * 0.75)
-            summary = models['summarizer'](
-                text,
-                max_length=max_length,
-                min_length=int(max_length * 0.1),
-                truncation=True
-            )
-            results['summary'] = summary[0]['summary_text']
             # Clean up summary
             if not results['summary'].endswith((".", "!", "?")):
@@ -114,6 +148,7 @@ def main():
     # File uploader with clear instructions
     st.write("Upload an audio file of your lecture (supported formats: WAV, MP3, M4A, FLAC)")
     uploaded_file = st.file_uploader("Choose a file", type=["wav", "mp3", "m4a", "flac"])
     if uploaded_file is not None:

         models = {
             'transcriber': pipeline("automatic-speech-recognition",
                                  model="openai/whisper-tiny.en",
+                                 device=device,
+                                 chunk_length_s=30),  # Process in 30-second chunks
             'summarizer': pipeline("summarization",
                                 model="sshleifer/distilbart-cnn-12-6",
                                 device=device)
         with st.spinner('Converting audio format...'):
             temp_wav_path = load_and_convert_audio(audio_path)
+        # Transcription with progress bar
         with st.spinner('Transcribing audio...'):
+            # Use return_timestamps=True for long audio files
+            transcription = models['transcriber'](
+                temp_wav_path,
+                return_timestamps=True,
+                generate_kwargs={"task": "transcribe"}
+            )
+            # Extract full text from chunks
+            if isinstance(transcription, dict):
+                results['transcription'] = transcription['text']
+            else:
+                # Combine chunks maintaining order
+                results['transcription'] = ' '.join([chunk['text'] for chunk in transcription])
+        # Summarization with chunking for long text
         with st.spinner('Generating summary...'):
             text = results['transcription']
+            # Split long text into chunks of ~1000 words for summarization
+            words = text.split()
+            chunk_size = 1000
+            chunks = [' '.join(words[i:i + chunk_size])
+                     for i in range(0, len(words), chunk_size)]
+            # Summarize each chunk
+            summaries = []
+            for i, chunk in enumerate(chunks):
+                st.progress((i + 1) / len(chunks))
+                summary = models['summarizer'](
+                    chunk,
+                    max_length=200,
+                    min_length=50,
+                    truncation=True
+                )
+                summaries.append(summary[0]['summary_text'])
+            # Combine summaries
+            combined_summary = ' '.join(summaries)
+            # Final summarization if multiple chunks exist
+            if len(summaries) > 1:
+                combined_summary = models['summarizer'](
+                    combined_summary,
+                    max_length=200,
+                    min_length=50,
+                    truncation=True
+                )[0]['summary_text']
+            results['summary'] = combined_summary
             # Clean up summary
             if not results['summary'].endswith((".", "!", "?")):
     # File uploader with clear instructions
     st.write("Upload an audio file of your lecture (supported formats: WAV, MP3, M4A, FLAC)")
+    st.write("Note: Processing long audio files may take several minutes.")
     uploaded_file = st.file_uploader("Choose a file", type=["wav", "mp3", "m4a", "flac"])
     if uploaded_file is not None: