Spaces:

reab5555
/

Multiple-Speakers-Personality-Analyzer

Runtime error

App Files Files Community

reab5555 commited on Aug 11, 2024

Commit

3ad4c21

verified ·

1 Parent(s): 260acfd

Update transcription_diarization.py

Browse files

Files changed (1) hide show

transcription_diarization.py +11 -32

transcription_diarization.py CHANGED Viewed

@@ -15,30 +15,22 @@ def upload_to_s3(local_file_path, bucket_name, s3_file_key):
     s3_client.upload_file(local_file_path, bucket_name, s3_file_key)
     return f's3://{bucket_name}/{s3_file_key}'
-def transcribe_video(file_uri, job_name, language):
     transcribe = boto3.client('transcribe',
                               aws_access_key_id=aws_access_key_id,
                               aws_secret_access_key=aws_secret_access_key,
                               region_name='eu-central-1')
-    language_code = get_language_code(language)
-    job_params = {
-        'TranscriptionJobName': job_name,
-        'Media': {'MediaFileUri': file_uri},
-        'MediaFormat': 'mp4',
-        'Settings': {
             'ShowSpeakerLabels': True,
             'MaxSpeakerLabels': 4
         }
-    }
-    if language_code:
-        job_params['LanguageCode'] = language_code
-    else:
-        job_params['IdentifyLanguage'] = True
-    transcribe.start_transcription_job(**job_params)
     while True:
         status = transcribe.get_transcription_job(TranscriptionJobName=job_name)
@@ -108,27 +100,14 @@ def extract_transcriptions_with_speakers(transcript_data):
     return transcriptions
-def get_language_code(language):
-    language_codes = {
-        "English": "en-US",
-        "Hebrew": "he-IL",
-        "Arabic": "ar-SA",
-        "French": "fr-FR",
-        "German": "de-DE",
-        "Italian": "it-IT",
-        "Japanese": "ja-JP",
-        "Chinese": "zh-CN",
-        "Auto-detect": None
-    }
-    return language_codes.get(language, "en-US")
-def diarize_audio(video_path, language):
     bucket_name = 'transcriptionjobbucket'
     s3_file_key = os.path.basename(video_path)
     file_uri = upload_to_s3(video_path, bucket_name, s3_file_key)
     job_name = f'transcription_job_{int(time.time())}'
-    transcript_url = transcribe_video(file_uri, job_name, language)
     if transcript_url:
         transcript_data = download_transcript(transcript_url)

     s3_client.upload_file(local_file_path, bucket_name, s3_file_key)
     return f's3://{bucket_name}/{s3_file_key}'
+def transcribe_video(file_uri, job_name):
     transcribe = boto3.client('transcribe',
                               aws_access_key_id=aws_access_key_id,
                               aws_secret_access_key=aws_secret_access_key,
                               region_name='eu-central-1')
+    transcribe.start_transcription_job(
+        TranscriptionJobName=job_name,
+        Media={'MediaFileUri': file_uri},
+        MediaFormat='mp4',
+        IdentifyLanguage=True,
+        Settings={
             'ShowSpeakerLabels': True,
             'MaxSpeakerLabels': 4
         }
+    )
     while True:
         status = transcribe.get_transcription_job(TranscriptionJobName=job_name)
     return transcriptions
+def diarize_audio(video_path):
     bucket_name = 'transcriptionjobbucket'
     s3_file_key = os.path.basename(video_path)
     file_uri = upload_to_s3(video_path, bucket_name, s3_file_key)
     job_name = f'transcription_job_{int(time.time())}'
+    transcript_url = transcribe_video(file_uri, job_name)
     if transcript_url:
         transcript_data = download_transcript(transcript_url)