ToxiCheck / data /README.md
Tbruand
docs(data): ajout du notebook EDA et instructions pour récupérer le dataset localement"
b3a9fd4
|
raw
history blame
724 Bytes

📁 Données locales

Ce dossier est exclu du versionnage Git via .gitignore.

📝 Dataset attendu

  • jigsaw_toxic_fr_clean.csv : dataset nettoyé pour le fine-tuning du modèle CamemBERT.

📥 Source du dataset

Tu peux télécharger le fichier original nettoyé depuis Kaggle ici :
🔗 Kaggle – Jigsaw Multilingual Comments (FR)

📦 Instructions

  1. Télécharger le fichier jigsaw-toxic-comment-train-google-fr-cleaned.csv depuis Kaggle.
  2. Le renommer en jigsaw_toxic_fr_clean.csv (ou adapter les scripts).
  3. Le placer ici dans ce dossier data/.