Spaces:

reab5555
/

Multiple-Speakers-Personality-Analyzer

Runtime error

App Files Files Community

reab5555 commited on Aug 10, 2024

Commit

ec8f948

verified ·

1 Parent(s): ff9df88

Update transcription_diarization.py

Browse files

Files changed (1) hide show

transcription_diarization.py +12 -10

transcription_diarization.py CHANGED Viewed

@@ -7,7 +7,7 @@ import datetime
 from collections import defaultdict
 from openai import OpenAI
 from config import openai_api_key, hf_token
-from pydub import AudioSegment
 import math
 client = OpenAI(api_key=openai_api_key)
@@ -31,7 +31,8 @@ def extract_audio(video_path):
     audio_path = f"{base_name}.wav"
     video = VideoFileClip(video_path)
     audio = video.audio
-    audio.write_audiofile(audio_path, codec='pcm_s16le')
     return audio_path
 def format_timestamp(seconds):
@@ -41,16 +42,17 @@ def diarize_audio(audio_path, pipeline, max_speakers):
     diarization = pipeline(audio_path, num_speakers=max_speakers)
     return diarization
-def split_audio(audio_path, chunk_duration=5 * 60 * 1000):  # 5 minutes per chunk
     audio = AudioSegment.from_wav(audio_path)
-    duration = len(audio) / 1000  # duration in seconds
-    chunks = math.ceil(duration / (chunk_duration / 1000))
     chunk_paths = []
-    for i in range(chunks):
-        start_time = i * chunk_duration
-        end_time = min((i + 1) * chunk_duration, len(audio))
-        chunk = audio[start_time:end_time]
         chunk_path = f"{audio_path[:-4]}_chunk_{i}.wav"
         chunk.export(chunk_path, format="wav")
         chunk_paths.append(chunk_path)
@@ -82,7 +84,7 @@ def transcribe_audio(audio_path, language):
     return transcription_txt, transcription_chunks
 def transcribe_large_audio(audio_path, language):
-    chunk_paths = split_audio(audio_path)
     transcription_txt = ""
     transcription_chunks = []

 from collections import defaultdict
 from openai import OpenAI
 from config import openai_api_key, hf_token
+from pydub import AudioSegment, silence
 import math
 client = OpenAI(api_key=openai_api_key)
     audio_path = f"{base_name}.wav"
     video = VideoFileClip(video_path)
     audio = video.audio
+    # Reduce audio quality to keep file size smaller
+    audio.write_audiofile(audio_path, codec='pcm_s16le', fps=16000, nbytes=2)
     return audio_path
 def format_timestamp(seconds):
     diarization = pipeline(audio_path, num_speakers=max_speakers)
     return diarization
+def split_audio_on_silence(audio_path, min_silence_len=500, silence_thresh=-40, keep_silence=500):
     audio = AudioSegment.from_wav(audio_path)
+    chunks = silence.split_on_silence(
+        audio,
+        min_silence_len=min_silence_len,
+        silence_thresh=silence_thresh,
+        keep_silence=keep_silence
+    )
     chunk_paths = []
+    for i, chunk in enumerate(chunks):
         chunk_path = f"{audio_path[:-4]}_chunk_{i}.wav"
         chunk.export(chunk_path, format="wav")
         chunk_paths.append(chunk_path)
     return transcription_txt, transcription_chunks
 def transcribe_large_audio(audio_path, language):
+    chunk_paths = split_audio_on_silence(audio_path)
     transcription_txt = ""
     transcription_chunks = []