Spaces:

SreekarB
/

SLPAnalysis

Running

App Files Files Community

SreekarB commited on Jul 28

Commit

7766eb3

verified ·

1 Parent(s): f0267f4

Upload simple_casl_app.py

Browse files

Files changed (1) hide show

simple_casl_app.py +36 -75

simple_casl_app.py CHANGED Viewed

@@ -450,6 +450,40 @@ def perform_speaker_diarization(audio_path):
         logger.error(f"Error in diarization: {e}")
         return None, f"Diarization error: {str(e)}"
 def transcribe_audio_with_metadata(audio_file, enable_diarization=True):
     """Transcribe audio with timestamps, sentiment, and metadata"""
     if not audio_file:
@@ -1223,60 +1257,6 @@ with gr.Blocks(title="Enhanced Speech Sample Analysis", theme=gr.themes.Soft())
                     )
                     quick_progress = gr.Markdown("")
-        # Tab 4: Advanced Transcription
-        with gr.Tab("🎤 Advanced Transcription"):
-            with gr.Row():
-                with gr.Column(scale=1):
-                    gr.Markdown("### Audio/Video Upload")
-                    gr.Markdown("**Supported formats:** MP4, AVI, MOV, MKV, WMV, FLV, WAV, MP3, M4A, FLAC, OGG")
-                    transcription_file_input = gr.File(
-                        label="Upload Audio or Video File",
-                        file_types=["audio", "video"]
-                    )
-                    enable_diarization = gr.Checkbox(
-                        label="Enable Speaker Diarization",
-                        value=True,
-                        info="Identify different speakers in the audio"
-                    )
-                    transcribe_advanced_btn = gr.Button(
-                        "🎤 Transcribe with Metadata",
-                        variant="primary",
-                        size="lg"
-                    )
-                    transcription_status = gr.Markdown("")
-                with gr.Column(scale=2):
-                    gr.Markdown("### Rich Transcript with Metadata")
-                    rich_transcript_display = gr.Textbox(
-                        label="Transcription with Speakers, Timestamps, Sentiment & Emotion",
-                        lines=15,
-                        max_lines=20
-                    )
-            with gr.Row():
-                with gr.Column():
-                    gr.Markdown("### Speech Metrics")
-                    transcription_metrics_display = gr.Textbox(
-                        label="SLP Metrics",
-                        lines=10,
-                        max_lines=15
-                    )
-                with gr.Column():
-                    gr.Markdown("### Word Frequency")
-                    transcription_word_freq_display = gr.Dataframe(
-                        headers=["Word", "Frequency"],
-                        label="Most Frequent Words",
-                        interactive=False
-                    )
     # Event handlers
     def on_analyze_file(file, age_val, gender_val, notes):
@@ -1305,19 +1285,6 @@ with gr.Blocks(title="Enhanced Speech Sample Analysis", theme=gr.themes.Soft())
         else:
             return f"Transcription failed: {status}", "", status
-    def on_transcribe_advanced(audio_file, enable_diarization):
-        """Handle advanced transcription"""
-        if not audio_file:
-            return "Please upload an audio/video file first.", "", "No file provided"
-        transcript, status = transcribe_audio_with_metadata(audio_file.name, enable_diarization)
-        if transcript:
-            metrics = calculate_slp_metrics(transcript)
-            word_freq_data = metrics.get('word_frequency', {})
-            return transcript, status, metrics, word_freq_data
-        else:
-            return f"Transcription failed: {status}", "", {}, {}
     def on_targeted_analyze(transcript, question, age_val, gender_val, notes):
         """Handle targeted analysis"""
         result = targeted_analysis(transcript, question, age_val, gender_val, notes)
@@ -1518,12 +1485,6 @@ with gr.Blocks(title="Enhanced Speech Sample Analysis", theme=gr.themes.Soft())
         outputs=[output, transcript_input, transcription_status]
     )
-    transcribe_advanced_btn.click(
-        on_transcribe_advanced,
-        inputs=[transcription_file_input, enable_diarization],
-        outputs=[rich_transcript_display, transcription_status, transcription_metrics_display, transcription_word_freq_display]
-    )
     targeted_analyze_btn.click(
         on_targeted_analyze,
         inputs=[transcript_input, custom_question, age, gender, slp_notes],
@@ -1544,8 +1505,8 @@ with gr.Blocks(title="Enhanced Speech Sample Analysis", theme=gr.themes.Soft())
 if __name__ == "__main__":
     print("🚀 Starting Enhanced Speech Sample Analysis Tool...")
-    print("📊 Features: Basic Analysis, Targeted Questions, Quick Multi-Analysis, Advanced Transcription")
-    print("🎤 Transcription: Audio/Video support with speaker diarization, sentiment, and emotion analysis")
     print("📈 Analysis: Complex sentences, figurative language, pragmatic skills, cognitive-linguistic factors")
     if not ANTHROPIC_API_KEY:

         logger.error(f"Error in diarization: {e}")
         return None, f"Diarization error: {str(e)}"
+def transcribe_audio(audio_file):
+    """Simple transcription function for basic audio/video files"""
+    if not audio_file:
+        return None, "No audio file provided"
+    if not SPEECHBRAIN_AVAILABLE:
+        return None, "SpeechBrain not available for transcription"
+    try:
+        # Check if it's a video file
+        file_extension = os.path.splitext(audio_file)[1].lower()
+        if file_extension in ['.mp4', '.avi', '.mov', '.mkv', '.wmv', '.flv']:
+            processed_audio, status = extract_audio_from_video(audio_file)
+            if not processed_audio:
+                return None, status
+        else:
+            processed_audio = audio_file
+        # Get transcription
+        transcript = asr_model.transcribe_file(processed_audio)
+        # Clean up temporary file if created
+        if processed_audio != audio_file and os.path.exists(processed_audio):
+            try:
+                os.unlink(processed_audio)
+            except:
+                pass
+        return transcript, "Transcription completed successfully"
+    except Exception as e:
+        logger.error(f"Error in transcription: {e}")
+        return None, f"Transcription error: {str(e)}"
 def transcribe_audio_with_metadata(audio_file, enable_diarization=True):
     """Transcribe audio with timestamps, sentiment, and metadata"""
     if not audio_file:
                     )
                     quick_progress = gr.Markdown("")
     # Event handlers
     def on_analyze_file(file, age_val, gender_val, notes):
         else:
             return f"Transcription failed: {status}", "", status
     def on_targeted_analyze(transcript, question, age_val, gender_val, notes):
         """Handle targeted analysis"""
         result = targeted_analysis(transcript, question, age_val, gender_val, notes)
         outputs=[output, transcript_input, transcription_status]
     )
     targeted_analyze_btn.click(
         on_targeted_analyze,
         inputs=[transcript_input, custom_question, age, gender, slp_notes],
 if __name__ == "__main__":
     print("🚀 Starting Enhanced Speech Sample Analysis Tool...")
+    print("📊 Features: Basic Analysis, Targeted Questions, Quick Multi-Analysis")
+    print("🎤 Transcription: Audio/Video support with basic transcription")
     print("📈 Analysis: Complex sentences, figurative language, pragmatic skills, cognitive-linguistic factors")
     if not ANTHROPIC_API_KEY: