Spaces:

Ribot
/

PodMagic

Running

App Files Files Community

Ribot commited on 18 days ago

Commit

9a10296

verified ·

1 Parent(s): 7c806f5

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -35

app.py CHANGED Viewed

@@ -4,81 +4,88 @@ import zipfile
 import requests
 import tempfile
 import subprocess
-from bs4 import BeautifulSoup
 import gradio as gr
-# Installation automatique des dépendances (à lancer en local une seule fois)
 try:
     import bs4
 except ImportError:
     subprocess.run(["pip", "install", "-q", "gradio", "beautifulsoup4", "requests"])
 def sanitize_filename(name):
     return re.sub(r"[^\w\-_.]", "_", name.strip())[:50]
-def extract_audio_links_from_html(html_text):
-    pattern = r'https://media\.radiofrance-podcast\.net/[^"]*ITEMA[^"]*\.(mp3|m4a)'
-    return list(set(re.findall(pattern, html_text)))
-def extract_titles_and_links(html_text):
-    # Recherche de segments JSON avec les titres + urls audio
-    pattern = r'title:\\"(.*?)\\",url:\\"(https://media\.radiofrance-podcast\.net/[^"]*ITEMA[^"]*\.(mp3|m4a))\\"'
-    matches = re.findall(pattern, html_text)
-    return [(sanitize_filename(title), url) for title, url, _ in matches]
-def download_and_zip(url):
-    # Téléchargement du HTML
     try:
         response = requests.get(url)
         response.raise_for_status()
     except Exception as e:
-        return f"Erreur de téléchargement : {e}", None
     html_text = response.text
-    # Extraction des titres et des liens
-    titles_links = extract_titles_and_links(html_text)
-    if not titles_links:
-        # fallback brut si les titres ne sont pas extraits
-        urls = extract_audio_links_from_html(html_text)
-        titles_links = [(f"track_{i+1:02d}", u) for i, u in enumerate(urls)]
-    if not titles_links:
-        return "Aucun fichier audio trouvé avec ITEMA dans l'URL", None
-    # Création dossier temporaire
     with tempfile.TemporaryDirectory() as tmpdir:
-        zip_path = os.path.join(tmpdir, "podcasts.zip")
         with zipfile.ZipFile(zip_path, "w") as zipf:
-            for idx, (title, audio_url) in enumerate(titles_links, 1):
-                ext = ".mp3" if ".mp3" in audio_url else ".m4a"
-                filename = f"{idx:02d}-{title}{ext}"
                 filepath = os.path.join(tmpdir, filename)
                 try:
-                    audio_resp = requests.get(audio_url)
                     audio_resp.raise_for_status()
                     with open(filepath, "wb") as f:
                         f.write(audio_resp.content)
                     zipf.write(filepath, arcname=filename)
                 except Exception as e:
-                    print(f"Erreur téléchargement {audio_url} : {e}")
-        return "Téléchargement terminé avec succès", zip_path
 def gradio_interface(url):
-    message, zip_file = download_and_zip(url)
     return message, zip_file
 # Interface Gradio
 demo = gr.Interface(
     fn=gradio_interface,
-    inputs=gr.Textbox(label="URL de la page Radio France (Podcast)", placeholder="https://www.radiofrance.fr/franceculture/podcasts/..."),
     outputs=[
         gr.Textbox(label="Message"),
-        gr.File(label="Fichier ZIP des épisodes")
     ],
-    title="Téléchargement de Podcasts Radio France",
-    description="Collez une URL vers un podcast de Radio France pour télécharger tous les épisodes (mp3/m4a) avec les bons noms."
 )
 if __name__ == "__main__":

 import requests
 import tempfile
 import subprocess
 import gradio as gr
+# Installation automatique des dépendances si nécessaire
 try:
     import bs4
 except ImportError:
     subprocess.run(["pip", "install", "-q", "gradio", "beautifulsoup4", "requests"])
 def sanitize_filename(name):
+    # Rend le nom de fichier compatible avec tous les OS
     return re.sub(r"[^\w\-_.]", "_", name.strip())[:50]
+def extract_mp3_links_and_titles(html_text):
+    # Expression pour trouver les URL MP3
+    mp3_pattern = re.compile(r'https?://[^\s"\'<>]+\.mp3')
+    mp3_links = mp3_pattern.findall(html_text)
+    # Expression pour tenter d'extraire les titres associés
+    item_pattern = re.compile(
+        r'title:"\\?"([^"]+)\\?".*?url:"(https?://[^\s"\'<>]+\.mp3)"',
+        re.DOTALL
+    )
+    titled_links = {match[1]: match[0] for match in item_pattern.findall(html_text)}
+    results = []
+    for link in mp3_links:
+        title = titled_links.get(link, None)
+        results.append((link, title))
+    return results
+def download_and_zip_mp3s(url):
     try:
         response = requests.get(url)
         response.raise_for_status()
     except Exception as e:
+        return f"Erreur de téléchargement de la page : {e}", None
     html_text = response.text
+    mp3_entries = extract_mp3_links_and_titles(html_text)
+    if not mp3_entries:
+        return "Aucun lien .mp3 trouvé sur cette page.", None
+    # Crée un ZIP dans un dossier temporaire
     with tempfile.TemporaryDirectory() as tmpdir:
+        zip_path = os.path.join(tmpdir, "episodes_radiofrance.zip")
         with zipfile.ZipFile(zip_path, "w") as zipf:
+            for idx, (mp3_url, title) in enumerate(mp3_entries, 1):
+                if title:
+                    filename = f"{idx:02d}-{sanitize_filename(title)}.mp3"
+                else:
+                    filename = f"{idx:02d}-episode.mp3"
                 filepath = os.path.join(tmpdir, filename)
                 try:
+                    print(f"Téléchargement : {mp3_url}")
+                    audio_resp = requests.get(mp3_url)
                     audio_resp.raise_for_status()
+                    if len(audio_resp.content) < 30_000:
+                        print(f"Fichier trop petit, ignoré : {mp3_url}")
+                        continue
                     with open(filepath, "wb") as f:
                         f.write(audio_resp.content)
                     zipf.write(filepath, arcname=filename)
                 except Exception as e:
+                    print(f"Erreur lors du téléchargement de {mp3_url} : {e}")
+        return "Téléchargement terminé avec succès.", zip_path
 def gradio_interface(url):
+    message, zip_file = download_and_zip_mp3s(url)
     return message, zip_file
 # Interface Gradio
 demo = gr.Interface(
     fn=gradio_interface,
+    inputs=gr.Textbox(label="URL de la page contenant des MP3"),
     outputs=[
         gr.Textbox(label="Message"),
+        gr.File(label="Fichier ZIP")
     ],
+    title="Extracteur MP3 Radio France (ou autre)",
+    description="Collez une URL contenant des fichiers MP3, et récupérez-les dans un ZIP avec titres et numérotation."
 )
 if __name__ == "__main__":