Merge pull request #3 from Tbruand/eda-dataset
Browse files### ✅ Contenu de la PR
Cette branche ajoute les éléments nécessaires à l’exploration initiale du dataset **Jigsaw multilingue (version française)** dans le cadre du projet de classification de commentaires toxiques.
#### 🔍 Inclus :
- `01_exploration.ipynb` : notebook d’analyse exploratoire des données
(répartition des classes, longueurs, wordclouds, corrélations).
- `data/README.md` : instructions pour récupérer manuellement le dataset depuis Kaggle, avec lien direct.
---
### 🎯 Objectif
Préparer une base propre pour le **fine-tuning d’un modèle CamemBERT**, avec un jeu de données :
- préanalysé,
- documenté,
- non versionné (dataset ignoré via `.gitignore`).
Cette PR constitue la **première étape** de la chaîne de traitement.
- data/README.md +15 -0
- notebooks/01_exploration.ipynb +0 -0
data/README.md
CHANGED
@@ -0,0 +1,15 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
# 📁 Données locales
|
2 |
+
|
3 |
+
Ce dossier est exclu du versionnage Git via `.gitignore`.
|
4 |
+
|
5 |
+
## 📝 Dataset attendu
|
6 |
+
- `jigsaw_toxic_fr_clean.csv` : dataset nettoyé pour le fine-tuning du modèle CamemBERT.
|
7 |
+
|
8 |
+
## 📥 Source du dataset
|
9 |
+
Tu peux télécharger le fichier original nettoyé depuis Kaggle ici :
|
10 |
+
🔗 [Kaggle – Jigsaw Multilingual Comments (FR)](https://www.kaggle.com/datasets/miklgr500/jigsaw-train-multilingual-coments-google-api?select=jigsaw-toxic-comment-train-google-fr-cleaned.csv)
|
11 |
+
|
12 |
+
## 📦 Instructions
|
13 |
+
1. Télécharger le fichier `jigsaw-toxic-comment-train-google-fr-cleaned.csv` depuis Kaggle.
|
14 |
+
2. Le renommer en `jigsaw_toxic_fr_clean.csv` (ou adapter les scripts).
|
15 |
+
3. Le placer ici dans ce dossier `data/`.
|
notebooks/01_exploration.ipynb
CHANGED
The diff for this file is too large to render.
See raw diff
|
|