Spaces:

syamashita
/

speaker_transcriber

Runtime error

App Files Files Community

syamashita commited on Mar 28

Commit

4c447c4

verified ·

1 Parent(s): f486b36

Update app.py

Browse files

Files changed (1) hide show

app.py +89 -91

app.py CHANGED Viewed

@@ -1,113 +1,111 @@
 import streamlit as st
 import tempfile
-import requests
-import os
 from pydub import AudioSegment
 from pyannote.audio import Pipeline
 from faster_whisper import WhisperModel
 from docx import Document
 from io import BytesIO
-# ------------------------------------------
-# ✅ トークン検証関数
-# ------------------------------------------
-def is_token_valid(token: str) -> bool:
-    try:
-        headers = {"Authorization": f"Bearer {token}"}
-        response = requests.get("https://huggingface.co/api/whoami-v2", headers=headers)
-        return response.status_code == 200
-    except:
-        return False
-# ------------------------------------------
-# ✅ Streamlit UI
-# ------------------------------------------
-st.set_page_config(page_title="話者分離付き文字起こし", layout="centered")
-st.title("🎤 話者分離付き文字起こしアプリ（Hugging Face対応）")
-st.markdown("このアプリは、音声ファイルをアップロードすると話者分離と文字起こしを行い、話者ごとに色分けして表示し、Wordファイルでダウンロードできます。")
-# Hugging Face トークンの入力（安全な入力）
-token = st.text_input("🔑 Hugging Face アクセストークンを入力してください", type="password")
-uploaded_file = st.file_uploader("🎵 音声ファイルをアップロード（mp3, wav, m4a）", type=["mp3", "wav", "m4a"])
 if uploaded_file:
     st.audio(uploaded_file)
     if st.button("▶️ 文字起こしスタート"):
-        # トークンチェック
-        if not token or not is_token_valid(token):
-            st.error("❌ 有効な Hugging Face トークンを入力してください。")
-            st.stop()
         status = st.info("準備中…")
         progress = st.progress(0)
-        # 一時ファイルに保存
-        with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
-            sound = AudioSegment.from_file(uploaded_file)
-            sound.export(tmp.name, format="wav")
-            audio_path = tmp.name
-        progress.progress(20)
-        # 話者分離
-        status.info("話者分離中…")
         try:
-            pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization", use_auth_token=token)
             diarization = pipeline(audio_path)
-        except Exception as e:
-            st.error(f"❌ 話者分離エラー: {e}")
-            st.stop()
-        progress.progress(50)
-        # Whisperで文字起こし
-        status.info("Whisperモデルで文字起こし中…")
-        model = WhisperModel("small", compute_type="int8")
-        segments, _ = model.transcribe(audio_path, vad_filter=True, language="ja")
-        progress.progress(70)
-        # 話者ごとのテキスト作成
-        transcript = ""
-        word_blocks = []
-        for segment in segments:
-            start = segment.start
-            speaker = "unknown"
-            for turn in diarization.itertracks(yield_label=True):
-                if turn[0].start <= start <= turn[0].end:
-                    speaker = turn[2]
-                    break
-            line = f"[{speaker}] {segment.text.strip()}"
-            word_blocks.append((speaker, segment.text.strip()))
-            transcript += line + "\n"
-        progress.progress(90)
-        status.success("完了！")
-        # 表示（色分け）
-        st.subheader("📝 話者ごとの文字起こし結果")
-        colors = ["#E6F7FF", "#FFFAE6", "#E6FFEA", "#F9E6FF"]
-        speakers = list(sorted(set(s for s, _ in word_blocks)))
-        color_map = {s: colors[i % len(colors)] for i, s in enumerate(speakers)}
-        for speaker, text in word_blocks:
-            st.markdown(
-                f"<div style='background-color:{color_map[speaker]}; padding:8px; border-radius:5px; margin-bottom:4px;'>"
-                f"<b>{speaker}</b>: {text}"
-                f"</div>",
-                unsafe_allow_html=True
             )
-        # Wordファイル出力
-        doc = Document()
-        for speaker, text in word_blocks:
-            doc.add_paragraph(f"{speaker}: {text}")
-        docx_io = BytesIO()
-        doc.save(docx_io)
-        docx_io.seek(0)
-        st.download_button("💾 Wordファイルでダウンロード", docx_io, file_name="transcription.docx", mime="application/vnd.openxmlformats-officedocument.wordprocessingml.document")
-        progress.progress(100)

+# app.py
 import streamlit as st
 import tempfile
 from pydub import AudioSegment
 from pyannote.audio import Pipeline
 from faster_whisper import WhisperModel
 from docx import Document
 from io import BytesIO
+import os
+import colorsys
+# Hugging Face アクセストークン
+HF_TOKEN = os.getenv("HUGGINGFACE_TOKEN", "hf_XXXXXXXXXXXXXXXXXXXXXXXXXXXX")
+# Streamlit設定
+st.set_page_config(page_title="話者分離付き文字起こし", layout="centered")
+st.title("🧠 話者分離付き文字起こしアプリ")
+# モデル選択（Whisper）
+model_size = st.selectbox("Whisperモデルを選択", ["tiny", "base", "small", "medium", "large-v2"], index=2)
+# 音声ファイルアップロード
+uploaded_file = st.file_uploader("音声ファイルをアップロード（mp3, wav, m4a）", type=["mp3", "wav", "m4a"])
+def generate_color_palette(n):
+    """人数に応じて色を自動生成"""
+    colors = []
+    for i in range(n):
+        hue = i / n
+        lightness = 0.85
+        saturation = 0.6
+        rgb = colorsys.hls_to_rgb(hue, lightness, saturation)
+        hex_color = '#%02x%02x%02x' % tuple(int(c * 255) for c in rgb)
+        colors.append(hex_color)
+    return colors
 if uploaded_file:
     st.audio(uploaded_file)
     if st.button("▶️ 文字起こしスタート"):
         status = st.info("準備中…")
         progress = st.progress(0)
         try:
+            # .wavへ変換して一時保存
+            with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp_wav:
+                audio = AudioSegment.from_file(uploaded_file)
+                audio.export(tmp_wav.name, format="wav")
+                audio_path = tmp_wav.name
+            progress.progress(20)
+            status.info("🔎 話者分離中...")
+            pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization", use_auth_token=HF_TOKEN)
             diarization = pipeline(audio_path)
+            progress.progress(50)
+            status.info("📝 Whisperモデルで文字起こし中...")
+            model = WhisperModel(model_size, compute_type="int8")
+            segments, _ = model.transcribe(audio_path, language="ja", vad_filter=True)
+            progress.progress(70)
+            status.info("📄 結果を整形中…")
+            # 話者ラベルをマージ
+            word_blocks = []
+            for segment in segments:
+                start = segment.start
+                speaker = "unknown"
+                for turn in diarization.itertracks(yield_label=True):
+                    if turn[0].start <= start <= turn[0].end:
+                        speaker = turn[2]
+                        break
+                word_blocks.append((speaker, segment.text.strip()))
+            # 話者色を生成
+            unique_speakers = sorted(set(s for s, _ in word_blocks))
+            colors = generate_color_palette(len(unique_speakers))
+            color_map = {spk: col for spk, col in zip(unique_speakers, colors)}
+            progress.progress(90)
+            status.success("✅ 完了！")
+            # 表示
+            st.subheader("🗣️ 話者ごとの文字起こし結果")
+            for speaker, text in word_blocks:
+                st.markdown(
+                    f"<div style='background-color:{color_map[speaker]}; padding:8px; border-radius:5px; margin-bottom:6px;'>"
+                    f"<b>{speaker}</b>: {text}"
+                    f"</div>",
+                    unsafe_allow_html=True
+                )
+            # Word出力
+            doc = Document()
+            for speaker, text in word_blocks:
+                doc.add_paragraph(f"{speaker}: {text}")
+            doc_io = BytesIO()
+            doc.save(doc_io)
+            doc_io.seek(0)
+            st.download_button(
+                label="💾 Wordファイルでダウンロード",
+                data=doc_io,
+                file_name="transcription.docx",
+                mime="application/vnd.openxmlformats-officedocument.wordprocessingml.document"
             )
+            progress.progress(100)
+        except Exception as e:
+            st.error(f"❌ エラーが発生しました:\n\n{e}")