Spaces:

MicroHealth
/

AV-to-transcripts

Paused

bluenevus commited on Apr 26

Commit

b5dd7e3

verified ·

1 Parent(s): ad0756f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -87,7 +87,8 @@ def chunk_audio(audio_segment, chunk_size_ms=60000):
 def transcribe_audio_chunks(chunks):
     transcriptions = []
-    for chunk in chunks:
         with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_audio_file:
             chunk.export(temp_audio_file.name, format="wav")
             with open(temp_audio_file.name, 'rb') as audio_file:
@@ -204,9 +205,13 @@ def process_media(file_path, is_url=False):
         audio = AudioSegment.from_wav(wav_path)
         chunks = chunk_audio(audio)
         # Transcribe chunks
         transcription = transcribe_audio_chunks(chunks)
         # Diarization using OpenAI
         diarization_prompt = f"""
         The following is a transcription of a conversation. Please identify different speakers and label them as Speaker 1, Speaker 2, etc. Format the output as a series of speaker labels followed by their dialogue. Here's the transcription:

 def transcribe_audio_chunks(chunks):
     transcriptions = []
+    for i, chunk in enumerate(chunks):
+        logger.info(f"Transcribing chunk {i+1}/{len(chunks)}")
         with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_audio_file:
             chunk.export(temp_audio_file.name, format="wav")
             with open(temp_audio_file.name, 'rb') as audio_file:
         audio = AudioSegment.from_wav(wav_path)
         chunks = chunk_audio(audio)
+        logger.info(f"Audio chunked into {len(chunks)} segments")
         # Transcribe chunks
         transcription = transcribe_audio_chunks(chunks)
+        logger.info(f"Transcription completed. Total length: {len(transcription)} characters")
         # Diarization using OpenAI
         diarization_prompt = f"""
         The following is a transcription of a conversation. Please identify different speakers and label them as Speaker 1, Speaker 2, etc. Format the output as a series of speaker labels followed by their dialogue. Here's the transcription: