Tbruand
commited on
Commit
·
b3a9fd4
1
Parent(s):
6bfce7a
docs(data): ajout du notebook EDA et instructions pour récupérer le dataset localement"
Browse files- data/README.md +15 -0
- notebooks/01_exploration.ipynb +0 -0
data/README.md
CHANGED
@@ -0,0 +1,15 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
# 📁 Données locales
|
2 |
+
|
3 |
+
Ce dossier est exclu du versionnage Git via `.gitignore`.
|
4 |
+
|
5 |
+
## 📝 Dataset attendu
|
6 |
+
- `jigsaw_toxic_fr_clean.csv` : dataset nettoyé pour le fine-tuning du modèle CamemBERT.
|
7 |
+
|
8 |
+
## 📥 Source du dataset
|
9 |
+
Tu peux télécharger le fichier original nettoyé depuis Kaggle ici :
|
10 |
+
🔗 [Kaggle – Jigsaw Multilingual Comments (FR)](https://www.kaggle.com/datasets/miklgr500/jigsaw-train-multilingual-coments-google-api?select=jigsaw-toxic-comment-train-google-fr-cleaned.csv)
|
11 |
+
|
12 |
+
## 📦 Instructions
|
13 |
+
1. Télécharger le fichier `jigsaw-toxic-comment-train-google-fr-cleaned.csv` depuis Kaggle.
|
14 |
+
2. Le renommer en `jigsaw_toxic_fr_clean.csv` (ou adapter les scripts).
|
15 |
+
3. Le placer ici dans ce dossier `data/`.
|
notebooks/01_exploration.ipynb
CHANGED
The diff for this file is too large to render.
See raw diff
|
|