Ce projet développe un classificateur de toxicité des textes en français en utilisant le modèle de deep learning Camembert
.
Il est capable de distinguer entre des textes toxiques et non-toxiques, et peut être ré-entraîné avec de nouvelles données pour améliorer sa précision.
- Chargement et préparation des données textuelles.
- Tokenisation et transformation des données pour
Camembert
. - Entraînement, évaluation et ré-entraînement du modèle.
- Prédiction de la toxicité sur de nouveaux échantillons de texte.
- Optimisation des hyperparamètres avec Optuna.
- Intégration des retours des utilisateurs pour le ré-entraînement.
logging
,sys
,numpy
,pandas
: Pour la manipulation des données et le logging.datasets
,sklearn
,transformers
,torch
: Outils d'apprentissage automatique et de deep learning.gc
,signal
,time
,random
,optuna
,os
: Diverses fonctionnalités de gestion de systèmes et d'optimisation.sqlite3
: Pour la gestion des bases de données SQLite dans le script de ré-entraînement.
ToxicityClassifier
: Classe pour la construction, l'entraînement et l'évaluation initiale du modèle.ToxicityReTrainer
: Classe pour le ré-entraînement du modèle avec de nouvelles données.LoggingCallback
: Callback pour l'enregistrement des logs pendant l'entraînement.
Pour utiliser ce projet, installez les dépendances requises et suivez les instructions spécifiques dans le script principal pour l'entraînement, l'évaluation et le ré-entraînement du modèle.
Le script de ré-entraînement permet d'ajuster et d'améliorer le modèle existant avec de nouvelles données. Il charge les nouvelles données d'une base de données SQLite et ré-entraîne le modèle Camembert pré-existant.
- Préparez le modèle pré-entraîné et le nouveau fichier de données.
- Exécutez le script de ré-entraînement pour ajuster le modèle.
Les contributions à ce projet sont les bienvenues. Veuillez soumettre vos pull requests sur GitHub. Ce projet est distribué sous la licence MIT.