Spaces:

Ribot
/

PodMagic

Running

App Files Files Community

Ribot commited on 20 days ago

Commit

52a320c

verified ·

1 Parent(s): 463a9c6

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -35

app.py CHANGED Viewed

@@ -5,6 +5,20 @@ import os
 import zipfile
 import tempfile
 from urllib.parse import urljoin
 def process_url(url):
     try:
@@ -17,54 +31,56 @@ def process_url(url):
     except Exception as e:
         return None, f"Erreur de connexion : {str(e)}"
-    # Nouvelle méthode de détection des MP3
-    mp3_links = []
-    # 1. Recherche dans les balises script
-    scripts = re.findall(r'<script.*?>(.*?)</script>', response.text, re.DOTALL)
-    for script in scripts:
-        matches = re.findall(r'(https://[^\s"\']+?\.mp3)', script)
-        mp3_links.extend(matches)
-    # 2. Recherche dans les attributs HTML
-    html_matches = re.findall(r'(?:href|src|rl|contentUrl)\s*=\s*["\'](.*?\.mp3.*?)["\']', response.text)
-    mp3_links.extend([urljoin(url, m.split('";')[0]) for m in html_matches])
-    # 3. Suppression des paramètres et dédoublonnage
-    clean_links = []
-    seen = set()
-    for link in mp3_links:
-        clean = link.split('?')[0].split('";')[0]
-        if clean not in seen:
-            seen.add(clean)
-            clean_links.append(clean)
-    if not clean_links:
-        return None, "Aucun MP3 trouvé - Essayez avec l'URL complète d'une série"
-    # Téléchargement
     temp_dir = tempfile.mkdtemp()
     filenames = []
-    for idx, mp3_url in enumerate(clean_links, 1):
         try:
-            filename = f"{idx:02d}_{os.path.basename(mp3_url)}"
-            filepath = os.path.join(temp_dir, filename)
             with requests.get(mp3_url, headers=headers, stream=True, timeout=10) as r:
                 r.raise_for_status()
-                with open(filepath, 'wb') as f:
                     for chunk in r.iter_content(chunk_size=8192):
                         f.write(chunk)
-            filenames.append(filepath)
         except Exception as e:
             continue
     if not filenames:
-        return None, "Tous les téléchargements ont échoué"
     # Création du ZIP
-    zip_path = os.path.join(temp_dir, 'radiofrance_podcast.zip')
     with zipfile.ZipFile(zip_path, 'w') as zipf:
         for file in filenames:
             zipf.write(file, arcname=os.path.basename(file))
@@ -77,16 +93,16 @@ def download_podcast(url):
         raise gr.Error(error)
     return zip_path
-with gr.Blocks(title="RadioFrance Podcaster") as app:
-    gr.Markdown("## 🎧 Téléchargement de podcasts Radio France")
     with gr.Row():
         url_input = gr.Textbox(
-            label="URL de la série podcast",
-            placeholder="Ex: https://www.radiofrance.fr/.../mon-podcast",
             max_lines=1
         )
-    btn = gr.Button("Télécharger les épisodes", variant="primary")
-    output = gr.File(label="Fichier ZIP contenant les MP3")
     examples = gr.Examples(
         examples=[[

 import zipfile
 import tempfile
 from urllib.parse import urljoin
+from mutagen.mp3 import MP3
+from mutagen.id3 import ID3, TIT2
+def get_clean_title(filepath):
+    try:
+        audio = MP3(filepath, ID3=ID3)
+        if 'TIT2' in audio:
+            title = audio['TIT2'].text[0]
+            # Nettoyage des caractères spéciaux
+            title = re.sub(r'[\\/*?:"<>|]', "", title).strip()
+            return title
+    except Exception as e:
+        print(f"Erreur lecture métadonnées : {str(e)}")
+    return os.path.basename(filepath).split('.')[0]
 def process_url(url):
     try:
     except Exception as e:
         return None, f"Erreur de connexion : {str(e)}"
+    # Extraction ciblée des épisodes
+    soup = BeautifulSoup(response.text, 'html.parser')
+    main_content = soup.find('main') or soup
+    episodes = main_content.find_all('article', class_=re.compile(r'episode|podcast'))
+    mp3_links = []
+    for episode in episodes:
+        script_tag = episode.find('script', type='application/ld+json')
+        if script_tag:
+            match = re.search(r'"contentUrl"\s*:\s*"([^"]+?\.mp3)', script_tag.string)
+            if match:
+                mp3_url = urljoin(url, match.group(1).split('?')[0])
+                mp3_links.append(mp3_url)
+    # Filtrage des doublons
+    mp3_links = list(dict.fromkeys(mp3_links))[:4]  # Limite aux 4 premiers épisodes
+    if not mp3_links:
+        return None, "Aucun épisode principal trouvé"
     temp_dir = tempfile.mkdtemp()
     filenames = []
+    for idx, mp3_url in enumerate(mp3_links, 1):
         try:
+            # Téléchargement original
+            original_name = os.path.basename(mp3_url).split('?')[0]
+            temp_path = os.path.join(temp_dir, f"temp_{idx}_{original_name}")
             with requests.get(mp3_url, headers=headers, stream=True, timeout=10) as r:
                 r.raise_for_status()
+                with open(temp_path, 'wb') as f:
                     for chunk in r.iter_content(chunk_size=8192):
                         f.write(chunk)
+            # Renommage avec métadonnées
+            clean_title = get_clean_title(temp_path)
+            final_name = f"{idx:02d} - {clean_title}.mp3"
+            final_path = os.path.join(temp_dir, final_name)
+            os.rename(temp_path, final_path)
+            filenames.append(final_path)
         except Exception as e:
             continue
     if not filenames:
+        return None, "Échec du téléchargement des épisodes"
     # Création du ZIP
+    zip_path = os.path.join(temp_dir, 'podcast_episodes.zip')
     with zipfile.ZipFile(zip_path, 'w') as zipf:
         for file in filenames:
             zipf.write(file, arcname=os.path.basename(file))
         raise gr.Error(error)
     return zip_path
+with gr.Blocks(title="Podcast Clean Downloader") as app:
+    gr.Markdown("## 🎙️ Téléchargeur Intelligent de Podcasts")
     with gr.Row():
         url_input = gr.Textbox(
+            label="URL Radio France",
+            placeholder="Collez ici l'URL de la série podcast...",
             max_lines=1
         )
+    btn = gr.Button("Générer le ZIP des épisodes", variant="primary")
+    output = gr.File(label="Télécharger les épisodes")
     examples = gr.Examples(
         examples=[[