Spaces:

soiz
/

audio-text

Running

soiz commited on Nov 22, 2024

Commit

be5673e

verified ·

1 Parent(s): 3de8a3a

Create app.py

Files changed (1) hide show

app.py ADDED Viewed

+import gradio as gr
+from transformers import WhisperProcessor, WhisperForConditionalGeneration
+import torch
+# モデルとプロセッサの読み込み
+model_name = "openai/whisper-large-v3"
+processor = WhisperProcessor.from_pretrained(model_name)
+model = WhisperForConditionalGeneration.from_pretrained(model_name)
+# 音声ファイルを文字起こしする関数
+def transcribe_audio(audio):
+    # 音声を処理
+    audio_input = processor(audio, return_tensors="pt", sampling_rate=16000)
+    # モデルによる文字起こし
+    with torch.no_grad():
+        predicted_ids = model.generate(input_ids=audio_input.input_ids)
+    # 文字起こし結果のデコード
+    transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
+    return transcription
+# Gradioのインターフェース作成
+interface = gr.Interface(
+    fn=transcribe_audio,
+    inputs=gr.Audio(source="microphone", type="filepath"),
+    outputs="text",
+    live=True
+)
+# インターフェースの起動
+interface.launch()