Spaces:

soiz
/

audio-text

Running

soiz commited on Nov 22, 2024

Commit

23e60a0

verified ·

1 Parent(s): c5e0c8c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 import torch
 # モデルとプロセッサの読み込み
 model_name = "openai/whisper-large-v3"
@@ -9,8 +10,11 @@ model = WhisperForConditionalGeneration.from_pretrained(model_name)
 # 音声ファイルを文字起こしする関数
 def transcribe_audio(audio):
-    # 音声を処理
-    audio_input = processor(audio, return_tensors="pt", sampling_rate=16000)
     # モデルによる文字起こし
     with torch.no_grad():

 import gradio as gr
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 import torch
+import librosa
 # モデルとプロセッサの読み込み
 model_name = "openai/whisper-large-v3"
 # 音声ファイルを文字起こしする関数
 def transcribe_audio(audio):
+    # librosaで音声を読み込む
+    audio_data, sampling_rate = librosa.load(audio, sr=16000)
+    # WhisperProcessorに渡すために、音声データを正しい形式に変換
+    audio_input = processor(audio_data, return_tensors="pt", sampling_rate=16000)
     # モデルによる文字起こし
     with torch.no_grad():