Tbruand
docs(data): ajout du notebook EDA et instructions pour récupérer le dataset localement"
b3a9fd4
| # 📁 Données locales | |
| Ce dossier est exclu du versionnage Git via `.gitignore`. | |
| ## 📝 Dataset attendu | |
| - `jigsaw_toxic_fr_clean.csv` : dataset nettoyé pour le fine-tuning du modèle CamemBERT. | |
| ## 📥 Source du dataset | |
| Tu peux télécharger le fichier original nettoyé depuis Kaggle ici : | |
| 🔗 [Kaggle – Jigsaw Multilingual Comments (FR)](https://www.kaggle.com/datasets/miklgr500/jigsaw-train-multilingual-coments-google-api?select=jigsaw-toxic-comment-train-google-fr-cleaned.csv) | |
| ## 📦 Instructions | |
| 1. Télécharger le fichier `jigsaw-toxic-comment-train-google-fr-cleaned.csv` depuis Kaggle. | |
| 2. Le renommer en `jigsaw_toxic_fr_clean.csv` (ou adapter les scripts). | |
| 3. Le placer ici dans ce dossier `data/`. |