Spaces:

Ribot
/

PodMagic

Running

App Files Files Community

Ribot commited on May 22

Commit

88da9f3

verified ·

1 Parent(s): 6ca2249

Update app.py

Browse files

Files changed (1) hide show

app.py +50 -52

app.py CHANGED Viewed

@@ -1,72 +1,70 @@
 import gradio as gr
 import requests
 from bs4 import BeautifulSoup
-import re
 import os
 import zipfile
 from urllib.parse import urljoin
-from pathlib import Path
-def extract_mp3_links(url):
-    response = requests.get(url)
-    soup = BeautifulSoup(response.content, "html.parser")
-    # Extraire les blocs d’épisodes depuis le HTML
-    episode_blocks = soup.find_all("a", href=True)
-    seen = set()
-    links = []
-    for a in episode_blocks:
-        href = a['href']
-        if href.endswith('.mp3') and 'radiofrance' in href:
-            full_url = href if href.startswith("http") else urljoin(url, href)
-            if full_url not in seen:
-                seen.add(full_url)
-                title = a.get("title") or a.text.strip() or "episode"
-                links.append((full_url, title))
-    return links
-def download_episodes(podcast_url):
-    os.makedirs("downloads", exist_ok=True)
-    mp3_links = extract_mp3_links(podcast_url)
     if not mp3_links:
-        return None, "Aucun épisode valide trouvé."
-    valid_episodes = []
-    for idx, (mp3_url, title) in enumerate(mp3_links, 1):
         try:
-            response = requests.get(mp3_url)
-            if response.status_code == 200:
-                safe_title = re.sub(r'[^\w\d-]', '_', title)[:80]
-                filename = f"{idx:02d}_{safe_title}.mp3"
-                filepath = os.path.join("downloads", filename)
-                with open(filepath, "wb") as f:
-                    f.write(response.content)
-                valid_episodes.append(filepath)
-        except Exception as e:
-            print(f"Erreur avec {mp3_url} : {e}")
-    if not valid_episodes:
-        return None, "Aucun fichier mp3 téléchargé."
-    zip_path = "/tmp/episodes_radiofrance.zip"
-    with zipfile.ZipFile(zip_path, 'w') as zipf:
-        for file in valid_episodes:
             zipf.write(file, arcname=os.path.basename(file))
-    return zip_path, f"{len(valid_episodes)} épisode(s) téléchargé(s) avec succès."
-with gr.Blocks() as app:
-    gr.Markdown("# 🎧 Téléchargeur de Podcasts Radio France")
-    with gr.Row():
-        url_input = gr.Text(label="URL de la série du podcast")
-        launch_btn = gr.Button("Télécharger les épisodes")
-    output_file = gr.File(label="Fichier ZIP")
-    output_message = gr.Textbox(label="Statut")
-    launch_btn.click(fn=download_episodes, inputs=url_input, outputs=[output_file, output_message])
-app.launch()

 import gradio as gr
 import requests
 from bs4 import BeautifulSoup
 import os
 import zipfile
+import tempfile
 from urllib.parse import urljoin
+def process_url(url):
+    try:
+        response = requests.get(url)
+        response.raise_for_status()
+    except requests.RequestException as e:
+        return None, f"Erreur lors de la récupération de la page : {e}"
+    soup = BeautifulSoup(response.text, 'html.parser')
+    mp3_links = []
+    for link in soup.find_all('a', href=True):
+        href = link['href']
+        if href.lower().endswith('.mp3'):
+            absolute_url = urljoin(response.url, href)
+            mp3_links.append(absolute_url)
+    # Supprimer les doublons en conservant l'ordre
+    seen = set()
+    mp3_links = [x for x in mp3_links if not (x in seen or seen.add(x))]
     if not mp3_links:
+        return None, "Aucun lien MP3 trouvé sur la page."
+    temp_dir = tempfile.mkdtemp()
+    filenames = []
+    for idx, mp3_url in enumerate(mp3_links, start=1):
         try:
+            mp3_response = requests.get(mp3_url)
+            mp3_response.raise_for_status()
+            filename = os.path.join(temp_dir, f"{idx:02d}_{os.path.basename(mp3_url)}")
+            with open(filename, 'wb') as f:
+                f.write(mp3_response.content)
+            filenames.append(filename)
+        except requests.RequestException as e:
+            print(f"Erreur de téléchargement {mp3_url}: {e}")
+            continue
+    if not filenames:
+        return None, "Aucun épisode téléchargé."
+    zip_filename = os.path.join(temp_dir, 'podcast_episodes.zip')
+    with zipfile.ZipFile(zip_filename, 'w') as zipf:
+        for file in filenames:
             zipf.write(file, arcname=os.path.basename(file))
+    return zip_filename, None
+def download_podcast(url):
+    zip_path, error = process_url(url)
+    if error:
+        raise gr.Error(error)
+    return zip_path
+iface = gr.Interface(
+    fn=download_podcast,
+    inputs=gr.Textbox(label="URL de la page du podcast", placeholder="https://www.radiofrance.fr/..."),
+    outputs=gr.File(label="Télécharger le ZIP des épisodes"),
+    title="Téléchargeur de Podcast",
+    description="Entrez l'URL d'une page contenant des épisodes de podcast pour télécharger tous les MP3 dans un ZIP ordonné."
+)
+iface.launch()