Spaces:

Ribot
/

PodMagic

Sleeping

App Files Files Community

Ribot commited on May 22

Commit

96682d9

verified ·

1 Parent(s): 50c8ca2

Update app.py

Browse files

Files changed (1) hide show

app.py +88 -85

app.py CHANGED Viewed

@@ -1,110 +1,113 @@
-import os
-import re
-import zipfile
-import requests
-import tempfile
 import subprocess
-import gradio as gr
-import shutil
-# Installation automatique des dépendances si nécessaire
 try:
-    import bs4
 except ImportError:
-    subprocess.run(["pip", "install", "-q", "gradio", "beautifulsoup4", "requests"])
 def sanitize_filename(name):
-    # Rend le nom de fichier compatible avec tous les OS
-    return re.sub(r"[^\w\-_.]", "_", name.strip())[:50]
 def extract_mp3_links_and_titles(html_text):
-    # Expression pour trouver les URL MP3
-    mp3_pattern = re.compile(r'https?://[^\s"\'<>]+\.mp3')
-    mp3_links = mp3_pattern.findall(html_text)
-    # Expression pour tenter d'extraire les titres associés
-    item_pattern = re.compile(
-        r'title:"\\?"([^"]+)\\?".*?url:"(https?://[^\s"\'<>]+\.mp3)"',
-        re.DOTALL
-    )
-    titled_links = {match[1]: match[0] for match in item_pattern.findall(html_text)}
-    results = []
-    for link in mp3_links:
-        title = titled_links.get(link, None)
-        results.append((link, title))
-    return results
-def download_and_zip_mp3s(url):
     try:
         response = requests.get(url)
         response.raise_for_status()
     except Exception as e:
-        return f"Erreur de téléchargement de la page : {e}", None
     html_text = response.text
     mp3_entries = extract_mp3_links_and_titles(html_text)
     if not mp3_entries:
-        return "Aucun lien .mp3 trouvé sur cette page.", None
-# package dans Zip
-def download_and_zip_mp3s(url):
-    try:
-        response = requests.get(url)
-        response.raise_for_status()
-    except Exception as e:
-        return f"Erreur de téléchargement de la page : {e}", None
-    html_text = response.text
-    mp3_entries = extract_mp3_links_and_titles(html_text)
-    if not mp3_entries:
-        return "Aucun lien .mp3 trouvé sur cette page.", None
-    temp_dir = tempfile.mkdtemp()
-    try:
-        zip_fd, zip_path = tempfile.mkstemp(suffix=".zip", prefix="episodes_")
-        os.close(zip_fd)  # On ferme le descripteur immédiatement
-        with zipfile.ZipFile(zip_path, "w") as zipf:
-            for idx, (mp3_url, title) in enumerate(mp3_entries, 1):
-                if title:
-                    filename = f"{idx:02d}-{sanitize_filename(title)}.mp3"
-                else:
-                    filename = f"{idx:02d}-episode.mp3"
-                filepath = os.path.join(temp_dir, filename)
-                try:
-                    print(f"Téléchargement : {mp3_url}")
-                    audio_resp = requests.get(mp3_url)
-                    audio_resp.raise_for_status()
-                    if len(audio_resp.content) < 30_000:
-                        print(f"Fichier trop petit, ignoré : {mp3_url}")
-                        continue
-                    with open(filepath, "wb") as f:
-                        f.write(audio_resp.content)
-                    zipf.write(filepath, arcname=filename)
-                except Exception as e:
-                    print(f"Erreur lors du téléchargement de {mp3_url} : {e}")
-        return "Téléchargement terminé avec succès.", zip_path
-    finally:
-        shutil.rmtree(temp_dir)
-def gradio_interface(url):
-    message, zip_file = download_and_zip_mp3s(url)
-    return message, zip_file
 # Interface Gradio
-demo = gr.Interface(
-    fn=gradio_interface,
-    inputs=gr.Textbox(label="URL de la page contenant des MP3"),
-    outputs=[
-        gr.Textbox(label="Message"),
-        gr.File(label="Fichier ZIP")
-    ],
-    title="Extracteur MP3 Radio France (ou autre)",
-    description="Collez une URL contenant des fichiers MP3, et récupérez-les dans un ZIP avec titres et numérotation."
-)
 if __name__ == "__main__":
     demo.launch()

 import subprocess
+import sys
+# Installation automatique des dépendances
+def install(package):
+    subprocess.check_call([sys.executable, "-m", "pip", "install", package])
 try:
+    import gradio as gr
+    import requests
+    import re
+    import os
+    import zipfile
+    from pathlib import Path
 except ImportError:
+    install("gradio")
+    install("requests")
+    import gradio as gr
+    import requests
+    import re
+    import os
+    import zipfile
+    from pathlib import Path
+# Nettoyage du nom de fichier
 def sanitize_filename(name):
+    name = re.sub(r'[\\/*?:"<>|]', "", name)
+    return name.strip().replace(" ", "_")[:100]
+# Extraction des liens MP3 + titres depuis HTML
 def extract_mp3_links_and_titles(html_text):
+    mp3_regex = re.compile(r'https://[^\s"]+?\.mp3')
+    title_regex = re.compile(r'title:\\"([^\\"]+)\\"')
+    urls = mp3_regex.findall(html_text)
+    titles = title_regex.findall(html_text)
+    # Supprimer les doublons d'URL tout en gardant l'ordre
+    seen = set()
+    unique_urls = []
+    for u in urls:
+        if u not in seen:
+            seen.add(u)
+            unique_urls.append(u)
+    # Compléter les titres manquants
+    titles += [""] * (len(unique_urls) - len(titles))
+    return list(zip(unique_urls, titles[:len(unique_urls)]))
+# Fonction principale
+def download_podcasts(url):
     try:
         response = requests.get(url)
         response.raise_for_status()
     except Exception as e:
+        return f"Erreur de récupération de la page : {e}", None
     html_text = response.text
     mp3_entries = extract_mp3_links_and_titles(html_text)
     if not mp3_entries:
+        return "Aucun fichier MP3 trouvé sur la page.", None
+    temp_dir = Path("temp_episodes")
+    temp_dir.mkdir(exist_ok=True)
+    zip_path = temp_dir / "episodes_radiofrance.zip"
+    used_filenames = set()
+    with zipfile.ZipFile(zip_path, "w") as zipf:
+        for idx, (mp3_url, title) in enumerate(mp3_entries, 1):
+            base_name = f"{idx:02d}-" + (sanitize_filename(title) if title else "episode")
+            filename = base_name + ".mp3"
+            # Assurer l'unicité du nom de fichier
+            counter = 1
+            while filename in used_filenames:
+                filename = f"{base_name}_{counter}.mp3"
+                counter += 1
+            used_filenames.add(filename)
+            try:
+                print(f"Téléchargement : {mp3_url}")
+                r = requests.get(mp3_url, stream=True)
+                r.raise_for_status()
+                mp3_path = temp_dir / filename
+                with open(mp3_path, "wb") as f:
+                    for chunk in r.iter_content(chunk_size=8192):
+                        f.write(chunk)
+                zipf.write(mp3_path, arcname=filename)
+                mp3_path.unlink()  # Supprime le fichier après ajout au ZIP
+            except Exception as e:
+                print(f"Erreur lors du téléchargement de {mp3_url} : {e}")
+    return "Téléchargement terminé !", str(zip_path)
 # Interface Gradio
+with gr.Blocks() as demo:
+    gr.Markdown("## 🎧 Téléchargeur de podcasts Radio France")
+    with gr.Row():
+        url_input = gr.Textbox(label="URL de la page", placeholder="Collez ici une URL d'une page de podcast")
+    download_btn = gr.Button("Télécharger les MP3 et générer un .zip")
+    status = gr.Textbox(label="Statut")
+    file_output = gr.File(label="Fichier ZIP à télécharger")
+    download_btn.click(download_podcasts, inputs=url_input, outputs=[status, file_output])
+# Lancement (utile pour Hugging Face)
 if __name__ == "__main__":
     demo.launch()