File size: 724 Bytes
b3a9fd4
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# 📁 Données locales

Ce dossier est exclu du versionnage Git via `.gitignore`.

## 📝 Dataset attendu
- `jigsaw_toxic_fr_clean.csv` : dataset nettoyé pour le fine-tuning du modèle CamemBERT.

## 📥 Source du dataset
Tu peux télécharger le fichier original nettoyé depuis Kaggle ici :  
🔗 [Kaggle – Jigsaw Multilingual Comments (FR)](https://www.kaggle.com/datasets/miklgr500/jigsaw-train-multilingual-coments-google-api?select=jigsaw-toxic-comment-train-google-fr-cleaned.csv)

## 📦 Instructions
1. Télécharger le fichier `jigsaw-toxic-comment-train-google-fr-cleaned.csv` depuis Kaggle.
2. Le renommer en `jigsaw_toxic_fr_clean.csv` (ou adapter les scripts).
3. Le placer ici dans ce dossier `data/`.