Spaces:

tahirsher
/

ASR_Model_for_Transcription_into_Text

Sleeping

App Files Files Community

tahirsher commited on Mar 10

Commit

dfe80a0

verified ·

1 Parent(s): f6dc6c7

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -3

app.py CHANGED Viewed

@@ -95,6 +95,7 @@ print(f"✅ Loaded {len(transcripts)} transcripts.")
 def load_and_process_audio(audio_path):
     waveform, sample_rate = torchaudio.load(audio_path)
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
     input_features = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features[0]
     return input_features
@@ -119,9 +120,10 @@ st.sidebar.title("🔧 Fine-Tuning Hyperparameters")
 num_epochs = st.sidebar.slider("Epochs", min_value=1, max_value=10, value=3)
 learning_rate = st.sidebar.select_slider("Learning Rate", options=[5e-4, 1e-4, 5e-5, 1e-5], value=5e-5)
 batch_size = st.sidebar.select_slider("Batch Size", options=[2, 4, 8, 16], value=8)
 # ================================
-# 7️⃣ Streamlit ASR Web App (Fast Decoding & Adversarial Attack Detection)
 # ================================
 st.title("🎙️ Speech-to-Text ASR Model with Security Features 🎶")
@@ -134,9 +136,9 @@ if audio_file:
     waveform, sample_rate = torchaudio.load(audio_path)
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
     # Simulate an adversarial attack by injecting random noise
-    attack_strength = st.sidebar.slider("Attack Strength", 0.0, 0.1, 0.2, 0.5, 0.7,0.9)
     adversarial_waveform = waveform + (attack_strength * torch.randn_like(waveform))
     adversarial_waveform = torch.clamp(adversarial_waveform, -1.0, 1.0)
@@ -147,7 +149,7 @@ if audio_file:
         transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
     if attack_strength > 0.1:
-        st.warning("⚠️ Adversarial attack detected! Transcription secured.")
     st.success("📄 Secure Transcription:")
     st.write(transcription)

 def load_and_process_audio(audio_path):
     waveform, sample_rate = torchaudio.load(audio_path)
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
+    waveform = waveform.to(dtype=torch.float32)
     input_features = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features[0]
     return input_features
 num_epochs = st.sidebar.slider("Epochs", min_value=1, max_value=10, value=3)
 learning_rate = st.sidebar.select_slider("Learning Rate", options=[5e-4, 1e-4, 5e-5, 1e-5], value=5e-5)
 batch_size = st.sidebar.select_slider("Batch Size", options=[2, 4, 8, 16], value=8)
+attack_strength = st.sidebar.slider("Attack Strength", 0.0, 0.9, 0.1)
 # ================================
+# 7️⃣ Streamlit ASR Web App (Fast Decoding & Security Features)
 # ================================
 st.title("🎙️ Speech-to-Text ASR Model with Security Features 🎶")
     waveform, sample_rate = torchaudio.load(audio_path)
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
+    waveform = waveform.to(dtype=torch.float32)
     # Simulate an adversarial attack by injecting random noise
     adversarial_waveform = waveform + (attack_strength * torch.randn_like(waveform))
     adversarial_waveform = torch.clamp(adversarial_waveform, -1.0, 1.0)
         transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
     if attack_strength > 0.1:
+        st.warning("⚠️ Adversarial attack detected! Transcription may be affected.")
     st.success("📄 Secure Transcription:")
     st.write(transcription)