Spaces:

soiz
/

audio-text

Running

soiz commited on Nov 22, 2024

Commit

1a83c9e

verified ·

1 Parent(s): 026aeab

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -14,12 +14,18 @@ def transcribe_audio(audio):
     audio_data, sampling_rate = librosa.load(audio, sr=16000)
     # WhisperProcessorに渡すために、音声データを正しい形式に変換
-    # 返された辞書からinput_valuesを直接取得する
     audio_input = processor(audio_data, return_tensors="pt", sampling_rate=16000)
-    # WhisperProcessorの出力にはinput_valuesが含まれるので、正しい属性にアクセス
-    input_values = audio_input['input_values']
     # モデルによる文字起こし
     with torch.no_grad():
         predicted_ids = model.generate(input_values=input_values)

     audio_data, sampling_rate = librosa.load(audio, sr=16000)
     # WhisperProcessorに渡すために、音声データを正しい形式に変換
+    # 返された辞書を表示して出力形式を確認
     audio_input = processor(audio_data, return_tensors="pt", sampling_rate=16000)
+    # 出力形式を確認
+    print(audio_input)  # デバッグ: 出力形式を確認
+    # input_values ではなく、input_features を使用する場合もある
+    input_values = audio_input.get('input_values') or audio_input.get('input_features')
+    if input_values is None:
+        raise ValueError("音声データが適切に処理されていないか、必要なキーが見つかりませんでした")
     # モデルによる文字起こし
     with torch.no_grad():
         predicted_ids = model.generate(input_values=input_values)