parakeet-tdt-0.6b-v2

Running on Zero

App Files Files Community

sungo-ganpare commited on May 25

Commit

1873d1e

1 Parent(s): af69235

音声ファイル処理の結果をユーザー指定の形式に合わせてJSON形式で返却するように変更。セグメント内の単語情報を含める処理を追加。

Browse files

Files changed (1) hide show

app.py +40 -17

app.py CHANGED Viewed

@@ -297,23 +297,46 @@ def process_audio_file(audio_filepath: str) -> dict: # Gradioから渡される
         # transcribe_audio_core内でエラー通知はされているはず
         return {"error": "Transcription failed. Check logs and messages for details."}
-    # 結果をJSON形式で返却
-    result = {
-        "segments": [
-            {
-                "start": float(seg[0]),
-                "end": float(seg[1]),
-                "text": seg[2]
-            } for seg in vis_data
-        ],
-        "words": [
-            {
-                "start": float(word[0]),
-                "end": float(word[1]),
-                "word": word[2]
-            } for word in word_vis_data
-        ]
-    }
     return result

         # transcribe_audio_core内でエラー通知はされているはず
         return {"error": "Transcription failed. Check logs and messages for details."}
+    # 結果をJSON形式で返却 (ユーザー指定の形式に合わせる)
+    output_segments = []
+    word_idx = 0
+    for seg_data in vis_data:
+        s_start_time = float(seg_data[0])
+        s_end_time = float(seg_data[1])
+        s_text = seg_data[2]
+        segment_words_list: List[dict] = []
+        if word_vis_data: # word_vis_data が存在する場合のみ処理
+            temp_current_word_idx = word_idx
+            while temp_current_word_idx < len(word_vis_data):
+                w_data = word_vis_data[temp_current_word_idx]
+                w_start_time = float(w_data[0])
+                w_end_time = float(w_data[1])
+                # 単語がセグメントの範囲内にあるかチェック (多少の誤差を許容)
+                if w_start_time >= s_start_time and w_end_time <= s_end_time + 0.1:
+                    segment_words_list.append({
+                        "start": w_start_time,
+                        "end": w_end_time,
+                        "word": w_data[2]
+                    })
+                    temp_current_word_idx += 1
+                elif w_start_time < s_start_time: # 単語がセグメントより前に開始している場合はスキップ
+                    temp_current_word_idx += 1
+                elif w_start_time > s_end_time: # 単語がセグメントより後に開始している場合はループを抜ける
+                    break
+                else: # その他のケース (ほぼありえないが念のため)
+                    temp_current_word_idx += 1
+            word_idx = temp_current_word_idx
+        output_segments.append({
+            "start": s_start_time,
+            "end": s_end_time,
+            "text": s_text,
+            "words": segment_words_list
+        })
+    result = {"segments": output_segments}
     return result