Spaces:

reab5555
/

Multiple-Speakers-Personality-Analyzer

Runtime error

App Files Files Community

reab5555 commited on Aug 10, 2024

Commit

fb650ff

verified ·

1 Parent(s): c3e3bb4

Update transcription_diarization.py

Browse files

Files changed (1) hide show

transcription_diarization.py +32 -10

transcription_diarization.py CHANGED Viewed

@@ -9,7 +9,7 @@ import datetime
 from collections import defaultdict
 import numpy as np
 from openai import OpenAI
-from config import openai_api_key
 import json
 from multiprocessing import Pool, cpu_count
 from functools import partial
@@ -66,6 +66,31 @@ def diarize_audio(audio_path, pipeline, max_speakers):
     return diarization
 def create_combined_srt(transcription_chunks, diarization, output_path, max_speakers):
     speaker_segments = []
     speaker_durations = defaultdict(float)
@@ -99,8 +124,8 @@ def create_combined_srt(transcription_chunks, diarization, output_path, max_spea
             if new_speaker != current_speaker or (end_time - current_start > 10):  # 10 seconds max duration
                 if current_text:
                     entry_count += 1
-                    start_str = format_timestamp(current_start).zfill(8)
-                    end_str = format_timestamp(current_end).zfill(8)
                     srt_file.write(f"[{entry_count}. {current_speaker} | time: ({start_str} --> {end_str}) | text: {current_text.strip()}]\n\n")
                 current_speaker = new_speaker
@@ -114,19 +139,16 @@ def create_combined_srt(transcription_chunks, diarization, output_path, max_spea
         # Write the last entry
         if current_text:
             entry_count += 1
-            start_str = format_timestamp(current_start).zfill(8)
-            end_str = format_timestamp(current_end).zfill(8)
             srt_file.write(f"[{entry_count}. {current_speaker} | time: ({start_str} --> {end_str}) | text: {current_text.strip()}]\n\n")
     with open(output_path, 'a', encoding='utf-8') as srt_file:
         for i, (speaker, duration) in enumerate(sorted_speakers, start=1):
-            duration_str = format_timestamp(duration).zfill(8)
             srt_file.write(f"Speaker {i} (originally {speaker}): total duration {duration_str}\n")
-def format_timestamp(seconds):
-    return str(datetime.timedelta(seconds=round(seconds))).zfill(8)
-def process_video(video_path, hf_token, language, max_speakers=3):
     base_name = os.path.splitext(video_path)[0]
     audio_path = f"{base_name}.wav"
     extract_audio(video_path, audio_path)

 from collections import defaultdict
 import numpy as np
 from openai import OpenAI
+from config import openai_api_key, hf_token
 import json
 from multiprocessing import Pool, cpu_count
 from functools import partial
     return diarization
+def transcribe_audio(audio_path, language):
+    with open(audio_path, "rb") as audio_file:
+        transcript = client.audio.transcriptions.create(
+            file=audio_file,
+            model="whisper-1",
+            language=language,
+            response_format="verbose_json"
+        )
+    # Convert the response to a dictionary if it's not already
+    if not isinstance(transcript, dict):
+        transcript = transcript.model_dump()
+    transcription_txt = transcript.get("text", "")
+    transcription_chunks = []
+    for segment in transcript.get("segments", []):
+        transcription_chunks.append({
+            "start": segment.get("start", 0),
+            "end": segment.get("end", 0),
+            "text": segment.get("text", "")
+        })
+    return transcription_txt, transcription_chunks
 def create_combined_srt(transcription_chunks, diarization, output_path, max_speakers):
     speaker_segments = []
     speaker_durations = defaultdict(float)
             if new_speaker != current_speaker or (end_time - current_start > 10):  # 10 seconds max duration
                 if current_text:
                     entry_count += 1
+                    start_str = format_timestamp(current_start)
+                    end_str = format_timestamp(current_end)
                     srt_file.write(f"[{entry_count}. {current_speaker} | time: ({start_str} --> {end_str}) | text: {current_text.strip()}]\n\n")
                 current_speaker = new_speaker
         # Write the last entry
         if current_text:
             entry_count += 1
+            start_str = format_timestamp(current_start)
+            end_str = format_timestamp(current_end)
             srt_file.write(f"[{entry_count}. {current_speaker} | time: ({start_str} --> {end_str}) | text: {current_text.strip()}]\n\n")
     with open(output_path, 'a', encoding='utf-8') as srt_file:
         for i, (speaker, duration) in enumerate(sorted_speakers, start=1):
+            duration_str = format_timestamp(duration)
             srt_file.write(f"Speaker {i} (originally {speaker}): total duration {duration_str}\n")
+def process_video(video_path, language, max_speakers=3):
     base_name = os.path.splitext(video_path)[0]
     audio_path = f"{base_name}.wav"
     extract_audio(video_path, audio_path)