Spaces:

fahadqazi
/

accent-classifier

Running

App Files Files Community

fahadqazi commited on 15 days ago

Commit

ab2a3d2

1 Parent(s): 059cd4b

accent detection

Browse files

Files changed (3) hide show

.gitignore +2 -0
app.py +18 -8
requirements.txt +3 -1

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ pretrained_models/
2	+ wav2vec2_checkpoints/

app.py CHANGED Viewed

@@ -4,16 +4,20 @@ import tempfile
 import os
 import requests
 from moviepy import VideoFileClip
-from transformers import pipeline, WhisperProcessor, WhisperForConditionalGeneration, Wav2Vec2Processor, Wav2Vec2Model
 import torchaudio
 # Load Whisper model to confirm English
 whisper_pipe = pipeline("automatic-speech-recognition", model="openai/whisper-tiny", device="cpu")
 # Placeholder accent classifier (replace with real one or your own logic)
 def classify_accent(audio_tensor, sample_rate):
-    # In a real case, you'd use a fine-tuned model or wav2vec2 embeddings
-    # We'll fake a classification here for demonstration
     return {
         "accent": "American",
         "confidence": 87.2,
@@ -36,8 +40,9 @@ def extract_audio(video_path):
     return audio_path
 def transcribe(audio_path):
-    result = whisper_pipe(audio_path)
-    return result['text']
 def analyze_accent(url_or_file):
     try:
@@ -61,16 +66,21 @@ def analyze_accent(url_or_file):
         # Transcription (to verify English)
         transcript = transcribe(audio_path)
-        if len(transcript.strip()) < 3:
             return "Could not understand speech. Please try another video."
         # Accent classification
         result = classify_accent(waveform, sample_rate)
-        output = f"**Accent**: {result['accent']}\n\n"
         output += f"**Confidence**: {result['confidence']}%\n\n"
         output += f"**Explanation**: {result['summary']}\n\n"
-        output += f"**Transcript** (first 200 chars): {transcript[:200]}..."
         # Clean up temp files
         if url_or_file.startswith("http"):

 import os
 import requests
 from moviepy import VideoFileClip
+from transformers import pipeline
 import torchaudio
+from speechbrain.pretrained.interfaces import foreign_class
 # Load Whisper model to confirm English
 whisper_pipe = pipeline("automatic-speech-recognition", model="openai/whisper-tiny", device="cpu")
+classifier = foreign_class(source="Jzuluaga/accent-id-commonaccent_xlsr-en-english", pymodule_file="custom_interface.py", classname="CustomEncoderWav2vec2Classifier")
 # Placeholder accent classifier (replace with real one or your own logic)
 def classify_accent(audio_tensor, sample_rate):
+    out_prob, score, index, text_lab = classifier.classify_batch([audio_tensor])
+    print(out_prob, score, index, text_lab)
     return {
         "accent": "American",
         "confidence": 87.2,
     return audio_path
 def transcribe(audio_path):
+    result = whisper_pipe(audio_path, return_language=True)
+    print(result)
+    return result['text'], result['chunks'][0]['language']
 def analyze_accent(url_or_file):
     try:
         # Transcription (to verify English)
         transcript = transcribe(audio_path)
+        if len(transcript[0].strip()) < 3:
             return "Could not understand speech. Please try another video."
         # Accent classification
         result = classify_accent(waveform, sample_rate)
+        output = f"**Language**: {transcript[1]}\n\n"
+        if transcript[1].lower() != "en" and transcript[1].lower() != "english":
+            return "The video is not in English. Please provide an English video."
+        output += f"**Accent**: {result['accent']}\n\n"
         output += f"**Confidence**: {result['confidence']}%\n\n"
         output += f"**Explanation**: {result['summary']}\n\n"
+        output += f"**Transcript** (first 200 chars): {transcript[0][:200]}..."
         # Clean up temp files
         if url_or_file.startswith("http"):

requirements.txt CHANGED Viewed

@@ -5,4 +5,6 @@ torchaudio
 moviepy
 ffmpeg-python
 requests
-yt_dlp

 moviepy
 ffmpeg-python
 requests
+yt_dlp
+soundfile
+speechbrain==0.5.14