Spaces:

asad231
/

voice-emotion-ai

Runtime error

App Files Files Community

asad231 commited on May 1

Commit

ba2a6fb

verified ·

1 Parent(s): 9a97fa7

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -37

app.py CHANGED Viewed

@@ -1,47 +1,40 @@
-import gradio as gr
 import torch
-import torchaudio
-from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2Processor
 import numpy as np
-# Load model and processor
-model_name = "ehcalabres/wav2vec2-lg-xlsr-en-speech-emotion-recognition"
-processor = Wav2Vec2Processor.from_pretrained(model_name)
-model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name)
-# Emotion labels and emojis
-id2label = {
-    0: "angry 😠",
-    1: "calm 😌",
-    2: "happy 😄",
-    3: "sad 😢"
 }
-# Audio processing and prediction
-def predict_emotion(audio):
-    if audio is None:
-        return "No audio provided"
-    speech_array, sampling_rate = torchaudio.load(audio)
-    if sampling_rate != 16000:
-        resampler = torchaudio.transforms.Resample(orig_freq=sampling_rate, new_freq=16000)
-        speech_array = resampler(speech_array)
-    input_values = processor(speech_array.squeeze(), return_tensors="pt", sampling_rate=16000).input_values
-    with torch.no_grad():
-        logits = model(input_values).logits
-    predicted_id = torch.argmax(logits, dim=-1).item()
-    return f"Detected Emotion: {id2label[predicted_id]}"
-# Gradio UI
-app = gr.Interface(
-    fn=predict_emotion,
-    inputs=gr.Audio(source="upload", type="filepath", label="Upload or Record Audio"),
-    outputs=gr.Textbox(label="Detected Emotion with Emoji"),
-    title="🎙️ Voice Emotion Detector with Emoji",
-    description="Upload or record your voice. The model will detect your emotion and display an emoji."
-)
-if __name__ == "__main__":
-    app.launch()

+import streamlit as st
 import torch
+import librosa
 import numpy as np
+from transformers import Wav2Vec2Processor, Wav2Vec2ForSequenceClassification
+import torchaudio
+# Emojis for emotions
+EMOTION_EMOJI = {
+    "angry": "😠",
+    "happy": "😄",
+    "sad": "😢",
+    "neutral": "😐"
 }
+# Load processor and model
+processor = Wav2Vec2Processor.from_pretrained("ehcalabres/wav2vec2-lg-xlsr-en-speech-emotion-recognition")
+model = Wav2Vec2ForSequenceClassification.from_pretrained("ehcalabres/wav2vec2-lg-xlsr-en-speech-emotion-recognition")
+# Title
+st.title("🎙️ Voice Emotion Detector with Emoji")
+# Upload audio
+uploaded_file = st.file_uploader("Upload a WAV file", type=["wav"])
+if uploaded_file is not None:
+    st.audio(uploaded_file, format="audio/wav")
+    # Load and preprocess audio
+    speech_array, sampling_rate = torchaudio.load(uploaded_file)
+    if sampling_rate != 16000:
+        speech_array = torchaudio.transforms.Resample(orig_freq=sampling_rate, new_freq=16000)(speech_array)
+    speech = speech_array.squeeze().numpy()
+    inputs = processor(speech, sampling_rate=16000, return_tensors="pt", padding=True)
+    with torch.no_grad():
+        logits = model(**inputs).logits
+    predicted_class_id = torch.argmax(logits).item()
+    emotion = model.config.id2label[predicted_class_id]
+    st.markdown(f"### Emotion Detected: **{emotion}** {EMOTION_EMOJI.get(emotion, '')}")