Spaces:

fahadqazi
/

accent-classifier

Running

fahadqazi commited on 22 days ago

Commit

5bd7940

1 Parent(s): 9ff2c00

added examples

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,12 +7,16 @@ from moviepy import VideoFileClip
 from transformers import pipeline
 import torchaudio
 from speechbrain.pretrained.interfaces import foreign_class
 # Load Whisper model to confirm English
 whisper_pipe = pipeline("automatic-speech-recognition", model="openai/whisper-tiny", device="cpu")
 classifier = foreign_class(source="Jzuluaga/accent-id-commonaccent_xlsr-en-english", pymodule_file="custom_interface.py", classname="CustomEncoderWav2vec2Classifier")
 ACCENT_LABELS = {
     "us": "American Accent",
@@ -69,10 +73,26 @@ def extract_audio(video_path):
     clip.audio.write_audiofile(audio_path, codec='pcm_s16le')
     return audio_path
 def transcribe(audio_path):
     result = whisper_pipe(audio_path, return_language=True)
     print(result)
-    return result['text'], result['chunks'][0]['language']
 def analyze_accent(url_or_file):
     try:

 from transformers import pipeline
 import torchaudio
 from speechbrain.pretrained.interfaces import foreign_class
+from transformers import WhisperForConditionalGeneration, WhisperProcessor
 # Load Whisper model to confirm English
 whisper_pipe = pipeline("automatic-speech-recognition", model="openai/whisper-tiny", device="cpu")
 classifier = foreign_class(source="Jzuluaga/accent-id-commonaccent_xlsr-en-english", pymodule_file="custom_interface.py", classname="CustomEncoderWav2vec2Classifier")
+model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-tiny")
+processor = WhisperProcessor.from_pretrained("openai/whisper-tiny")
 ACCENT_LABELS = {
     "us": "American Accent",
     clip.audio.write_audiofile(audio_path, codec='pcm_s16le')
     return audio_path
+def detect_language(audio_path):
+    audio, sr = torchaudio.load(audio_path)
+    inputs = processor(audio[0], sampling_rate=sr, return_tensors="pt")
+    logits = model.forward(**inputs).logits
+    predicted_ids = torch.argmax(logits, dim=-1)
+    decoded = processor.tokenizer.batch_decode(predicted_ids, skip_special_tokens=True)
+    return decoded[0]  # crude approximation
 def transcribe(audio_path):
     result = whisper_pipe(audio_path, return_language=True)
     print(result)
+    lang = result['chunks'][0]['language']
+    if lang == None:
+        lang = detect_language(audio_path)
+    return result['text'], lang
 def analyze_accent(url_or_file):
     try: