Tbruand
docs(data): ajout du notebook EDA et instructions pour récupérer le dataset localement"
b3a9fd4
A newer version of the Gradio SDK is available:
5.42.0
📁 Données locales
Ce dossier est exclu du versionnage Git via .gitignore
.
📝 Dataset attendu
jigsaw_toxic_fr_clean.csv
: dataset nettoyé pour le fine-tuning du modèle CamemBERT.
📥 Source du dataset
Tu peux télécharger le fichier original nettoyé depuis Kaggle ici :
🔗 Kaggle – Jigsaw Multilingual Comments (FR)
📦 Instructions
- Télécharger le fichier
jigsaw-toxic-comment-train-google-fr-cleaned.csv
depuis Kaggle. - Le renommer en
jigsaw_toxic_fr_clean.csv
(ou adapter les scripts). - Le placer ici dans ce dossier
data/
.