Spaces:

EnDevSols
/

ASR-Arabic

Sleeping

App Files Files Community

muzammil-eds commited on Sep 5, 2024

Commit

18922c4

verified ·

1 Parent(s): 6d75aa3

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -29

app.py CHANGED Viewed

@@ -18,13 +18,6 @@ def load_model():
 processor, model = load_model()
 def transcribe_audio_hf(audio_bytes):
-    """
-    Transcribes speech from an audio file using a pretrained Wav2Vec2 model.
-    Args:
-        audio_bytes (bytes): Audio data in bytes.
-    Returns:
-        str: The transcription of the speech in the audio file.
-    """
     speech_array, sampling_rate = librosa.load(BytesIO(audio_bytes), sr=16000)
     input_values = processor(speech_array, sampling_rate=sampling_rate, return_tensors="pt", padding=True).input_values
     with torch.no_grad():
@@ -35,27 +28,11 @@ def transcribe_audio_hf(audio_bytes):
 def levenshtein_similarity(transcription1, transcription2):
-    """
-    Calculate the Levenshtein similarity between two transcriptions.
-    Args:
-        transcription1 (str): The first transcription.
-        transcription2 (str): The second transcription.
-    Returns:
-        float: A normalized similarity score between 0 and 1, where 1 indicates identical transcriptions.
-    """
     distance = Levenshtein.distance(transcription1, transcription2)
     max_len = max(len(transcription1), len(transcription2))
     return 1 - distance / max_len  # Normalize to get similarity score
 def evaluate_audio_similarity(original_audio_bytes, user_audio_bytes):
-    """
-    Compares the similarity between the transcription of an original audio file and a user's audio file.
-    Args:
-        original_audio_bytes (bytes): Bytes of the original audio file.
-        user_audio_bytes (bytes): Bytes of the user's audio file.
-    Returns:
-        tuple: Transcriptions and Levenshtein similarity score.
-    """
     transcription_original = transcribe_audio_hf(original_audio_bytes)
     transcription_user = transcribe_audio_hf(user_audio_bytes)
     similarity_score_levenshtein = levenshtein_similarity(transcription_original, transcription_user)
@@ -70,13 +47,20 @@ input_method = st.sidebar.selectbox("Choose Input Method", ["Record"])
 original_audio_bytes = None
 user_audio_bytes = None
 if input_method == "Record":
     st.write("Record or Upload Original Audio")
-    test_bytes = audio_recorder(key="tester", pause_threshold=0.2, auto_start=True)
-    time.sleep(5)
-    original_audio_bytes = audio_recorder(key="original_audio_recorder", pause_threshold=30, icon_size='4x')
     if not original_audio_bytes:
         original_audio = st.file_uploader("Or Upload Original Audio", type=["wav", "mp3"])
@@ -112,7 +96,7 @@ if input_method == "Record":
                 st.write(f"**User Transcription:** {transcription_user}")
                 st.write(f"**Levenshtein Similarity Score:** {similarity_score:.2f}")
-                if similarity_score > 0.8:  # Adjust the threshold as needed
                     st.success("The pronunciation is likely correct based on transcription similarity.")
                 else:
                     st.error("The pronunciation may be incorrect based on transcription similarity.")

 processor, model = load_model()
 def transcribe_audio_hf(audio_bytes):
     speech_array, sampling_rate = librosa.load(BytesIO(audio_bytes), sr=16000)
     input_values = processor(speech_array, sampling_rate=sampling_rate, return_tensors="pt", padding=True).input_values
     with torch.no_grad():
 def levenshtein_similarity(transcription1, transcription2):
     distance = Levenshtein.distance(transcription1, transcription2)
     max_len = max(len(transcription1), len(transcription2))
     return 1 - distance / max_len  # Normalize to get similarity score
 def evaluate_audio_similarity(original_audio_bytes, user_audio_bytes):
     transcription_original = transcribe_audio_hf(original_audio_bytes)
     transcription_user = transcribe_audio_hf(user_audio_bytes)
     similarity_score_levenshtein = levenshtein_similarity(transcription_original, transcription_user)
 original_audio_bytes = None
 user_audio_bytes = None
+# Delay for initial setup to avoid first-click auto-stop issue
 if input_method == "Record":
     st.write("Record or Upload Original Audio")
+    # Introducing a delay for initial recording setup to avoid immediate stop issue
+    if 'initialized' not in st.session_state:
+        st.session_state['initialized'] = False
+    if not st.session_state['initialized']:
+        st.session_state['initialized'] = True
+        st.warning("Initializing recorder... Please wait a moment.")
+        time.sleep(2)  # Add small delay before first-time recording
+    else:
+        original_audio_bytes = audio_recorder(key="original_audio_recorder", pause_threshold=30, icon_size='4x')
     if not original_audio_bytes:
         original_audio = st.file_uploader("Or Upload Original Audio", type=["wav", "mp3"])
                 st.write(f"**User Transcription:** {transcription_user}")
                 st.write(f"**Levenshtein Similarity Score:** {similarity_score:.2f}")
+                if similarity_score > 0.8:
                     st.success("The pronunciation is likely correct based on transcription similarity.")
                 else:
                     st.error("The pronunciation may be incorrect based on transcription similarity.")