Spaces:

Ymokay
/

ToxiCheck

Sleeping

T0m4_ commited on Jun 14

Commit

c06677f

unverified ·

Merge pull request #3 from Tbruand/eda-dataset

### ✅ Contenu de la PR

Cette branche ajoute les éléments nécessaires à l’exploration initiale du dataset **Jigsaw multilingue (version française)** dans le cadre du projet de classification de commentaires toxiques.

#### 🔍 Inclus :
- `01_exploration.ipynb` : notebook d’analyse exploratoire des données
(répartition des classes, longueurs, wordclouds, corrélations).
- `data/README.md` : instructions pour récupérer manuellement le dataset depuis Kaggle, avec lien direct.

---

### 🎯 Objectif

Préparer une base propre pour le **fine-tuning d’un modèle CamemBERT**, avec un jeu de données :
- préanalysé,
- documenté,
- non versionné (dataset ignoré via `.gitignore`).

Cette PR constitue la **première étape** de la chaîne de traitement.

Files changed (2) hide show

data/README.md +15 -0
notebooks/01_exploration.ipynb +0 -0

data/README.md CHANGED Viewed

	@@ -0,0 +1,15 @@

+# 📁 Données locales
+Ce dossier est exclu du versionnage Git via `.gitignore`.
+## 📝 Dataset attendu
+- `jigsaw_toxic_fr_clean.csv` : dataset nettoyé pour le fine-tuning du modèle CamemBERT.
+## 📥 Source du dataset
+Tu peux télécharger le fichier original nettoyé depuis Kaggle ici :
+🔗 [Kaggle – Jigsaw Multilingual Comments (FR)](https://www.kaggle.com/datasets/miklgr500/jigsaw-train-multilingual-coments-google-api?select=jigsaw-toxic-comment-train-google-fr-cleaned.csv)
+## 📦 Instructions
+1. Télécharger le fichier `jigsaw-toxic-comment-train-google-fr-cleaned.csv` depuis Kaggle.
+2. Le renommer en `jigsaw_toxic_fr_clean.csv` (ou adapter les scripts).
+3. Le placer ici dans ce dossier `data/`.

notebooks/01_exploration.ipynb CHANGED Viewed

The diff for this file is too large to render. See raw diff