Spaces:

tahirsher
/

ASR_Model_for_Transcription_into_Text

Sleeping

tahirsher commited on Mar 9

Commit

8dd61a6

verified ·

1 Parent(s): 8d55ac9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -156,14 +156,17 @@ if audio_file:
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
     # Convert audio to model input
-    input_features = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features[0]
     # ✅ FIX: Ensure input tensor is correctly formatted
-    input_tensor = input_features.unsqueeze(0).to(device)  # Adds batch dimension
     # Perform ASR inference
     with torch.no_grad():
-        logits = model(input_tensor).logits
         predicted_ids = torch.argmax(logits, dim=-1)
         transcription = processor.batch_decode(predicted_ids)[0]

     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
     # Convert audio to model input
+    input_features = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features
     # ✅ FIX: Ensure input tensor is correctly formatted
+    input_tensor = input_features.to(device)  # Move to GPU/CPU
+    # ✅ FIX: Provide decoder_input_ids
+    decoder_input_ids = torch.tensor([[model.config.decoder_start_token_id]]).to(device)
     # Perform ASR inference
     with torch.no_grad():
+        logits = model(input_tensor, decoder_input_ids=decoder_input_ids).logits
         predicted_ids = torch.argmax(logits, dim=-1)
         transcription = processor.batch_decode(predicted_ids)[0]