Spaces:

soiz
/

audio-text

Running

soiz commited on Nov 22, 2024

Commit

7494bfb

verified ·

1 Parent(s): 8ff5286

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,40 +1,24 @@
 import gradio as gr
-from transformers import WhisperProcessor, WhisperForConditionalGeneration
-import torch
-import librosa
-# モデルとプロセッサの読み込み
-model_name = "openai/whisper-large-v3"
-processor = WhisperProcessor.from_pretrained(model_name)
-model = WhisperForConditionalGeneration.from_pretrained(model_name)
-# 音声ファイルを文字起こしする関数
-def transcribe_audio(audio):
-    # librosaで音声を読み込む
-    audio_data, sampling_rate = librosa.load(audio, sr=16000)
-    # WhisperProcessorに渡すために、音声データを正しい形式に変換
-    audio_input = processor(audio_data, return_tensors="pt", sampling_rate=16000)
-    # input_features を取得
-    input_features = audio_input["input_features"]
-    # モデルによる文字起こし
-    with torch.no_grad():
-        predicted_ids = model.generate(input_features=input_features)
-    # 文字起こし結果のデコード
-    transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
-    return transcription
-# Gradioのインターフェース作成
-interface = gr.Interface(
-    fn=transcribe_audio,
-    inputs=gr.Audio(type="filepath"),  # マイクやファイルから音声を入力
-    outputs="text",
-    live=True
-)
-# インターフェースの起動
-interface.launch(share=True)

 import gradio as gr
+from transformers import pipeline
+# Whisperモデルを読み込み
+model_name = "openai/whisper-small"  # 他のサイズも使用可能（tiny, base, largeなど）
+transcriber = pipeline("automatic-speech-recognition", model=model_name)
+def transcribe(audio):
+    """
+    音声ファイルを文字起こしする関数
+    """
+    result = transcriber(audio)
+    return result["text"]
+# Gradioインターフェース
+with gr.Blocks() as demo:
+    gr.Markdown("### 音声文字起こしデモ")
+    audio_input = gr.Audio(source="upload", type="filepath", label="音声ファイルをアップロード")
+    text_output = gr.Textbox(label="文字起こし結果")
+    transcribe_button = gr.Button("文字起こし")
+    transcribe_button.click(transcribe, inputs=audio_input, outputs=text_output)
+# アプリケーションを起動
+demo.launch()