Spaces:

rkonan
/

chatbot-fr

Paused

rkonan commited on 6 days ago

Commit

e41c83a

1 Parent(s): 0478d93

correction NLTK

Files changed (3) hide show

Dockerfile CHANGED Viewed

@@ -1,7 +1,7 @@
-# Image de base Python avec support CPU
 FROM python:3.10-slim
-# Dépendances système nécessaires à llama-cpp-python et nltk
 RUN apt-get update && apt-get install -y \
     build-essential \
     cmake \
@@ -11,26 +11,21 @@ RUN apt-get update && apt-get install -y \
     curl \
     && rm -rf /var/lib/apt/lists/*
-# Définir le dossier de travail
 WORKDIR /code
-# Copier les fichiers requirements
 COPY requirements.txt .
-# Installer les dépendances Python
 RUN pip install --no-cache-dir -r requirements.txt
-# 🔧 Créer dossier pour NLTK
-RUN mkdir -p /tmp/nltk_data
-# ✅ Télécharger punkt AVANT le lancement de l'app
-RUN python -m nltk.downloader -d /tmp/nltk_data punkt
-# Copier le reste du code
 COPY . .
-# Exposer le port pour Streamlit
 EXPOSE 7860
-# CMD adapté pour Hugging Face Spaces
 CMD ["streamlit", "run", "app.py", "--server.port=7860", "--server.address=0.0.0.0"]

+# 🐍 Image de base
 FROM python:3.10-slim
+# 🧱 Dépendances système
 RUN apt-get update && apt-get install -y \
     build-essential \
     cmake \
     curl \
     && rm -rf /var/lib/apt/lists/*
+# 📁 Dossier de travail
 WORKDIR /code
+# 📝 Copier les requirements et installer les dépendances
 COPY requirements.txt .
 RUN pip install --no-cache-dir -r requirements.txt
+# 📦 Préparer le cache NLTK
+RUN mkdir -p /tmp/nltk_data && python -m nltk.downloader -d /tmp/nltk_data punkt
+# 📁 Copier tout le code
 COPY . .
+# 📤 Exposer le port Streamlit
 EXPOSE 7860
+# 🚀 Lancer l'application (le patch doit être dans app.py AVANT l'import llama_index)
 CMD ["streamlit", "run", "app.py", "--server.port=7860", "--server.address=0.0.0.0"]

app.py CHANGED Viewed

@@ -7,10 +7,12 @@ from huggingface_hub import hf_hub_download
 import time
-# 🔧 Corrige le problème de PermissionError avec NLTK
 os.environ["NLTK_DATA"] = "/tmp/nltk_data"
-ENV = os.getenv("ENV", "space")
 logger = logging.getLogger("Streamlit")
 logger.setLevel(logging.INFO)

 import time
+import os
 os.environ["NLTK_DATA"] = "/tmp/nltk_data"
+# Appliquer le patch avant tout import de llama_index
+from patches.llama_patch import patch_llamaindex_nltk
+patch_llamaindex_nltk()
 logger = logging.getLogger("Streamlit")
 logger.setLevel(logging.INFO)

patches/llama_patch.py ADDED Viewed

+import os
+import nltk
+# Forcer le cache dans /tmp
+NLTK_CACHE_DIR = "/tmp/nltk_data"
+def patch_llamaindex_nltk():
+    try:
+        from llama_index.core.utils import GlobalsHelper
+        class PatchedGlobalsHelper(GlobalsHelper):
+            def __init__(self):
+                # Rediriger vers /tmp
+                self._nltk_data_dir = NLTK_CACHE_DIR
+                # Télécharger punkt si nécessaire
+                try:
+                    nltk.data.find("tokenizers/punkt")
+                except LookupError:
+                    nltk.download("punkt", download_dir=self._nltk_data_dir)
+    except Exception as e:
+        print("[patch_llamaindex_nltk] Failed to patch:", e)