Spaces:

mskov
/

test

Runtime error

App Files Files Community

mskov commited on Aug 22, 2023

Commit

3f0eaa9

1 Parent(s): 5ce6e7e

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -3

app.py CHANGED Viewed

@@ -6,7 +6,7 @@ from transformers import pipeline, WhisperModel, WhisperTokenizer, WhisperFeatur
 os.system("pip install jiwer")
 from jiwer import wer
 os.system("pip install datasets[audio]")
-from evaluate import evaluator
 import evaluate
 from datasets import load_dataset, Audio, disable_caching, set_caching_enabled
 import gradio as gr
@@ -18,7 +18,7 @@ disable_caching()
 huggingface_token = os.environ["huggingface_token"]
 pipe = pipeline(model="mskov/whisper-small-esc50")
 print(pipe)
 dataset = load_dataset("mskov/miso_test", split="test").cast_column("audio", Audio(sampling_rate=16000))
 print(dataset, "and at 0[audio][array] ", dataset[0]["audio"]["array"], type(dataset[0]["audio"]["array"]), "and at audio : ", dataset[0]["audio"])
@@ -27,6 +27,23 @@ model = pipe
 # Evaluate the model
 # model.eval()
 #print("model.eval ", model.eval())
 with torch.no_grad():
     outputs = model(input_ids=input_ids, attention_mask=attention_mask)
     print("outputs ", outputs)
@@ -43,7 +60,7 @@ wer_score = wer(labels, predicted_text)
 # Print or return WER score
 print(f"Word Error Rate (WER): {wer_score}")
 def transcribe(audio):
     text = pipe(audio)["text"]

 os.system("pip install jiwer")
 from jiwer import wer
 os.system("pip install datasets[audio]")
+from evaluate import evaluator, load
 import evaluate
 from datasets import load_dataset, Audio, disable_caching, set_caching_enabled
 import gradio as gr
 huggingface_token = os.environ["huggingface_token"]
 pipe = pipeline(model="mskov/whisper-small-esc50")
 print(pipe)
+processor = WhisperProcessor.from_pretrained("openai/whisper-medium").to("cuda")
 dataset = load_dataset("mskov/miso_test", split="test").cast_column("audio", Audio(sampling_rate=16000))
 print(dataset, "and at 0[audio][array] ", dataset[0]["audio"]["array"], type(dataset[0]["audio"]["array"]), "and at audio : ", dataset[0]["audio"])
 # Evaluate the model
 # model.eval()
 #print("model.eval ", model.eval())
+audio = batch["audio"]
+input_features = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt").input_features
+batch["reference"] = processor.tokenizer._normalize(batch['text'])
+with torch.no_grad():
+    predicted_ids = model.generate(input_features.to("cuda"))[0]
+transcription = processor.decode(predicted_ids)
+batch["prediction"] = processor.tokenizer._normalize(transcription)
+return batch
+result = dataset.map(map_to_pred)
+wer = load("wer")
+print(100 * wer.compute(references=result["reference"], predictions=result["prediction"]))
+'''
 with torch.no_grad():
     outputs = model(input_ids=input_ids, attention_mask=attention_mask)
     print("outputs ", outputs)
 # Print or return WER score
 print(f"Word Error Rate (WER): {wer_score}")
+'''
 def transcribe(audio):
     text = pipe(audio)["text"]