Spaces:

soiz
/

audio-text

Running

soiz commited on Nov 22, 2024

Commit

8ff5286

verified ·

1 Parent(s): 1a83c9e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -14,21 +14,14 @@ def transcribe_audio(audio):
     audio_data, sampling_rate = librosa.load(audio, sr=16000)
     # WhisperProcessorに渡すために、音声データを正しい形式に変換
-    # 返された辞書を表示して出力形式を確認
     audio_input = processor(audio_data, return_tensors="pt", sampling_rate=16000)
-    # 出力形式を確認
-    print(audio_input)  # デバッグ: 出力形式を確認
-    # input_values ではなく、input_features を使用する場合もある
-    input_values = audio_input.get('input_values') or audio_input.get('input_features')
-    if input_values is None:
-        raise ValueError("音声データが適切に処理されていないか、必要なキーが見つかりませんでした")
     # モデルによる文字起こし
     with torch.no_grad():
-        predicted_ids = model.generate(input_values=input_values)
     # 文字起こし結果のデコード
     transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
@@ -44,4 +37,4 @@ interface = gr.Interface(
 )
 # インターフェースの起動
-interface.launch(share=True)  # `share=True`で公開リンクを生成

     audio_data, sampling_rate = librosa.load(audio, sr=16000)
     # WhisperProcessorに渡すために、音声データを正しい形式に変換
     audio_input = processor(audio_data, return_tensors="pt", sampling_rate=16000)
+    # input_features を取得
+    input_features = audio_input["input_features"]
     # モデルによる文字起こし
     with torch.no_grad():
+        predicted_ids = model.generate(input_features=input_features)
     # 文字起こし結果のデコード
     transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
 )
 # インターフェースの起動
+interface.launch(share=True)