Tbruand commited on
Commit
b3a9fd4
·
1 Parent(s): 6bfce7a

docs(data): ajout du notebook EDA et instructions pour récupérer le dataset localement"

Browse files
Files changed (2) hide show
  1. data/README.md +15 -0
  2. notebooks/01_exploration.ipynb +0 -0
data/README.md CHANGED
@@ -0,0 +1,15 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # 📁 Données locales
2
+
3
+ Ce dossier est exclu du versionnage Git via `.gitignore`.
4
+
5
+ ## 📝 Dataset attendu
6
+ - `jigsaw_toxic_fr_clean.csv` : dataset nettoyé pour le fine-tuning du modèle CamemBERT.
7
+
8
+ ## 📥 Source du dataset
9
+ Tu peux télécharger le fichier original nettoyé depuis Kaggle ici :
10
+ 🔗 [Kaggle – Jigsaw Multilingual Comments (FR)](https://www.kaggle.com/datasets/miklgr500/jigsaw-train-multilingual-coments-google-api?select=jigsaw-toxic-comment-train-google-fr-cleaned.csv)
11
+
12
+ ## 📦 Instructions
13
+ 1. Télécharger le fichier `jigsaw-toxic-comment-train-google-fr-cleaned.csv` depuis Kaggle.
14
+ 2. Le renommer en `jigsaw_toxic_fr_clean.csv` (ou adapter les scripts).
15
+ 3. Le placer ici dans ce dossier `data/`.
notebooks/01_exploration.ipynb CHANGED
The diff for this file is too large to render. See raw diff