Spaces:

Adjoumani
/

UnifySummarizer

Running

App Files Files Community

Adjoumani commited on Jan 16

Commit

b794bbb

verified ·

1 Parent(s): c267d9d

Update app.py

Browse files

Files changed (1) hide show

app.py +50 -0

app.py CHANGED Viewed

@@ -38,6 +38,7 @@ from moviepy import VideoFileClip
 import yt_dlp
 from youtube_transcript_api import YouTubeTranscriptApi
 from urllib.parse import urlparse, parse_qs
 from ratelimit import limits, sleep_and_retry
 import time
 import fasttext
@@ -51,6 +52,7 @@ from PyPDF2 import PdfReader
 from pptx import Presentation
 import trafilatura
 from bs4 import BeautifulSoup
 from dotenv import load_dotenv
 load_dotenv()
@@ -1084,6 +1086,42 @@ def process_document_with_password(file, password: str, doc_processor: DocumentP
         st.error(str(e))
         return None
 def process_web():
     """Traitement des contenus web"""
     url = st.text_input("URL du site web")
@@ -1096,6 +1134,18 @@ def process_web():
         auth = {"username": username, "password": password}
     if url and st.button("Analyser"):
         try:
             doc_processor = DocumentProcessor(
                 st.session_state.audio_processor.llm.model_name,

 import yt_dlp
 from youtube_transcript_api import YouTubeTranscriptApi
 from urllib.parse import urlparse, parse_qs
+import mimetypes
 from ratelimit import limits, sleep_and_retry
 import time
 import fasttext
 from pptx import Presentation
 import trafilatura
 from bs4 import BeautifulSoup
 from dotenv import load_dotenv
 load_dotenv()
         st.error(str(e))
         return None
+def is_text_content(url):
+    try:
+        # Utiliser Selenium ou Playwright pour le rendu JavaScript
+        response = requests.get(url)
+        return ('text' in response.headers.get('content-type', '').lower()
+                or 'html' in response.headers.get('content-type', '').lower()
+                or 'application/json' in response.headers.get('content-type', '').lower())
+    except:
+        return False
+def is_valid_content_url(url):
+    """Vérifie si l'URL est valide pour l'extraction de contenu"""
+    parsed = urlparse(url)
+    excluded_domains = [
+        'youtube.com', 'vimeo.com', 'dailymotion.com',
+        'imgur.com', 'flickr.com', 'instagram.com',
+        'facebook.com', 'fb.com', 'twitter.com', 'x.com',
+        'tiktok.com', 'linkedin.com', 'pinterest.com',
+        'snapchat.com', 'reddit.com', 'tumblr.com',
+        'whatsapp.com', 'telegram.org', 'discord.com'
+    ]
+    excluded_extensions = ['.jpg', '.jpeg', '.png', '.gif', '.mp4', '.mp3', '.pdf']
+    domain = parsed.netloc.lower()
+    path = parsed.path.lower()
+    return not (
+        any(exc in domain for exc in excluded_domains) or
+        any(path.endswith(ext) for ext in excluded_extensions)
+    )
 def process_web():
     """Traitement des contenus web"""
     url = st.text_input("URL du site web")
         auth = {"username": username, "password": password}
     if url and st.button("Analyser"):
+        if not url.startswith(('http://', 'https://')):
+            st.error("L'URL doit commencer par 'http://' ou 'https://'")
+            return
+        if not is_valid_content_url(url):
+            st.error(f"Cette URL ({url}) ne peut pas être traitée (vidéo, image ou autre contenu non supporté)")
+            return
+        if not is_text_content(url):
+            st.error(f"Cette URL ({url}) ne contient pas de contenu textuel analysable")
+            return
         try:
             doc_processor = DocumentProcessor(
                 st.session_state.audio_processor.llm.model_name,