ToxiCheck / data /README.md
Tbruand
docs(data): ajout du notebook EDA et instructions pour récupérer le dataset localement"
b3a9fd4

A newer version of the Gradio SDK is available: 5.42.0

Upgrade

📁 Données locales

Ce dossier est exclu du versionnage Git via .gitignore.

📝 Dataset attendu

  • jigsaw_toxic_fr_clean.csv : dataset nettoyé pour le fine-tuning du modèle CamemBERT.

📥 Source du dataset

Tu peux télécharger le fichier original nettoyé depuis Kaggle ici :
🔗 Kaggle – Jigsaw Multilingual Comments (FR)

📦 Instructions

  1. Télécharger le fichier jigsaw-toxic-comment-train-google-fr-cleaned.csv depuis Kaggle.
  2. Le renommer en jigsaw_toxic_fr_clean.csv (ou adapter les scripts).
  3. Le placer ici dans ce dossier data/.