T0m4_ commited on
Commit
c06677f
·
unverified ·
2 Parent(s): 6c4f586 b3a9fd4

Merge pull request #3 from Tbruand/eda-dataset

Browse files

### ✅ Contenu de la PR

Cette branche ajoute les éléments nécessaires à l’exploration initiale du dataset **Jigsaw multilingue (version française)** dans le cadre du projet de classification de commentaires toxiques.

#### 🔍 Inclus :
- `01_exploration.ipynb` : notebook d’analyse exploratoire des données
(répartition des classes, longueurs, wordclouds, corrélations).
- `data/README.md` : instructions pour récupérer manuellement le dataset depuis Kaggle, avec lien direct.

---

### 🎯 Objectif

Préparer une base propre pour le **fine-tuning d’un modèle CamemBERT**, avec un jeu de données :
- préanalysé,
- documenté,
- non versionné (dataset ignoré via `.gitignore`).

Cette PR constitue la **première étape** de la chaîne de traitement.

Files changed (2) hide show
  1. data/README.md +15 -0
  2. notebooks/01_exploration.ipynb +0 -0
data/README.md CHANGED
@@ -0,0 +1,15 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # 📁 Données locales
2
+
3
+ Ce dossier est exclu du versionnage Git via `.gitignore`.
4
+
5
+ ## 📝 Dataset attendu
6
+ - `jigsaw_toxic_fr_clean.csv` : dataset nettoyé pour le fine-tuning du modèle CamemBERT.
7
+
8
+ ## 📥 Source du dataset
9
+ Tu peux télécharger le fichier original nettoyé depuis Kaggle ici :
10
+ 🔗 [Kaggle – Jigsaw Multilingual Comments (FR)](https://www.kaggle.com/datasets/miklgr500/jigsaw-train-multilingual-coments-google-api?select=jigsaw-toxic-comment-train-google-fr-cleaned.csv)
11
+
12
+ ## 📦 Instructions
13
+ 1. Télécharger le fichier `jigsaw-toxic-comment-train-google-fr-cleaned.csv` depuis Kaggle.
14
+ 2. Le renommer en `jigsaw_toxic_fr_clean.csv` (ou adapter les scripts).
15
+ 3. Le placer ici dans ce dossier `data/`.
notebooks/01_exploration.ipynb CHANGED
The diff for this file is too large to render. See raw diff