Spaces:

MicroHealth
/

AV-to-transcripts

Paused

App Files Files Community

bluenevus commited on Apr 26

Commit

b8cd6c2

verified ·

1 Parent(s): d398f2e

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -53

app.py CHANGED Viewed

@@ -9,7 +9,7 @@ from dash import Dash, dcc, html, Input, Output, State, callback, callback_conte
 import dash_bootstrap_components as dbc
 from pydub import AudioSegment
 import requests
-from pytube import YouTube
 import mimetypes
 import urllib.parse
@@ -84,36 +84,22 @@ def process_media(file_path, is_url=False):
     try:
         if is_url:
             logger.info(f"Processing URL: {file_path}")
-            if 'youtube.com' in file_path or 'youtu.be' in file_path:
-                try:
-                    yt = YouTube(file_path)
-                    stream = yt.streams.filter(progressive=True, file_extension='mp4').order_by('resolution').desc().first()
-                    temp_file = tempfile.NamedTemporaryFile(delete=False, suffix='.mp4')
-                    stream.download(output_path=os.path.dirname(temp_file.name), filename=os.path.basename(temp_file.name))
-                    logger.info(f"YouTube video downloaded: {temp_file.name}")
-                except Exception as e:
-                    logger.error(f"Error downloading YouTube video: {str(e)}")
-                    return f"Error downloading YouTube video: {str(e)}", False
-            else:
-                try:
-                    response = requests.get(file_path)
-                    response.raise_for_status()
-                    content_type = response.headers.get('content-type', '')
-                    logger.info(f"URL content type: {content_type}")
-                    # Determine file extension from URL or content type
-                    url_path = urllib.parse.urlparse(file_path).path
-                    ext = os.path.splitext(url_path)[1]
-                    if not ext:
-                        ext = mimetypes.guess_extension(content_type) or ''
-                    temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=ext)
-                    temp_file.write(response.content)
-                    temp_file.close()
-                    logger.info(f"URL content downloaded: {temp_file.name}")
-                except Exception as e:
-                    logger.error(f"Error downloading URL content: {str(e)}")
-                    return f"Error downloading URL content: {str(e)}", False
         else:
             logger.info("Processing uploaded file")
             temp_file = tempfile.NamedTemporaryFile(delete=False)
@@ -121,24 +107,24 @@ def process_media(file_path, is_url=False):
             temp_file.close()
             logger.info(f"Uploaded file saved: {temp_file.name}")
-        file_extension = os.path.splitext(temp_file.name)[1].lower()
-        logger.info(f"Detected file extension: {file_extension}")
-        if file_extension in VIDEO_FORMATS:
-            logger.info("Processing video file")
-            video = VideoFileClip(temp_file.name)
-            audio = video.audio
-            wav_path = temp_file.name + ".wav"
-            audio.write_audiofile(wav_path)
-            video.close()
-        elif file_extension in AUDIO_FORMATS or not file_extension:
-            logger.info("Processing audio file")
-            audio = AudioSegment.from_file(temp_file.name, format=file_extension[1:] if file_extension else None)
-            wav_path = temp_file.name + ".wav"
-            audio.export(wav_path, format="wav")
-        else:
-            logger.error(f"Unsupported file format: {file_extension}")
-            return f"Unsupported file format: {file_extension}. Please upload a supported audio or video file.", False
         logger.info(f"Audio extracted to WAV: {wav_path}")
@@ -184,15 +170,14 @@ def update_output(contents, n_clicks, filename, url):
     if not ctx.triggered:
         return "No file uploaded or URL processed.", "", "", True
-    trigger_id = ctx.triggered[0]['prop_id'].split('.')[0]
     if contents is not None:
-        # Process file upload
         content_type, content_string = contents.split(',')
         decoded = base64.b64decode(content_string)
         status_message, success = process_media(decoded)
     elif url:
-        # Process URL
         status_message, success = process_media(url, is_url=True)
     else:
         return "No file uploaded or URL processed.", "", "", True
@@ -201,7 +186,7 @@ def update_output(contents, n_clicks, filename, url):
         preview = transcription_text[:1000] + "..." if len(transcription_text) > 1000 else transcription_text
         return f"Media processed successfully.", status_message, preview, False
     else:
-        return "Processing failed.", status_message, "", True
 @app.callback(
     Output("download-transcription", "data"),

 import dash_bootstrap_components as dbc
 from pydub import AudioSegment
 import requests
+import yt_dlp
 import mimetypes
 import urllib.parse
     try:
         if is_url:
             logger.info(f"Processing URL: {file_path}")
+            try:
+                ydl_opts = {
+                    'format': 'bestaudio/best',
+                    'postprocessors': [{
+                        'key': 'FFmpegExtractAudio',
+                        'preferredcodec': 'wav',
+                    }],
+                    'outtmpl': '%(id)s.%(ext)s',
+                }
+                with yt_dlp.YoutubeDL(ydl_opts) as ydl:
+                    info = ydl.extract_info(file_path, download=True)
+                    wav_path = f"{info['id']}.wav"
+                logger.info(f"Audio downloaded: {wav_path}")
+            except Exception as e:
+                logger.error(f"Error downloading audio from URL: {str(e)}")
+                return f"Error downloading audio from URL: {str(e)}", False
         else:
             logger.info("Processing uploaded file")
             temp_file = tempfile.NamedTemporaryFile(delete=False)
             temp_file.close()
             logger.info(f"Uploaded file saved: {temp_file.name}")
+            file_extension = os.path.splitext(temp_file.name)[1].lower()
+            logger.info(f"Detected file extension: {file_extension}")
+            if file_extension in VIDEO_FORMATS:
+                logger.info("Processing video file")
+                video = VideoFileClip(temp_file.name)
+                audio = video.audio
+                wav_path = temp_file.name + ".wav"
+                audio.write_audiofile(wav_path)
+                video.close()
+            elif file_extension in AUDIO_FORMATS:
+                logger.info("Processing audio file")
+                audio = AudioSegment.from_file(temp_file.name, format=file_extension[1:])
+                wav_path = temp_file.name + ".wav"
+                audio.export(wav_path, format="wav")
+            else:
+                logger.error(f"Unsupported file format: {file_extension}")
+                return f"Unsupported file format: {file_extension}. Please upload a supported audio or video file.", False
         logger.info(f"Audio extracted to WAV: {wav_path}")
     if not ctx.triggered:
         return "No file uploaded or URL processed.", "", "", True
+    # Clear the preview pane
+    transcription_preview = ""
     if contents is not None:
         content_type, content_string = contents.split(',')
         decoded = base64.b64decode(content_string)
         status_message, success = process_media(decoded)
     elif url:
         status_message, success = process_media(url, is_url=True)
     else:
         return "No file uploaded or URL processed.", "", "", True
         preview = transcription_text[:1000] + "..." if len(transcription_text) > 1000 else transcription_text
         return f"Media processed successfully.", status_message, preview, False
     else:
+        return "Processing failed.", status_message, transcription_preview, True
 @app.callback(
     Output("download-transcription", "data"),