Skip to content

Latest commit

 

History

History
38 lines (29 loc) · 2.29 KB

README.md

File metadata and controls

38 lines (29 loc) · 2.29 KB

Projet de Classification de Toxicité des Textes - CYBIA

Description

Ce projet développe un classificateur de toxicité des textes en français en utilisant le modèle de deep learning Camembert. Il est capable de distinguer entre des textes toxiques et non-toxiques, et peut être ré-entraîné avec de nouvelles données pour améliorer sa précision.

Fonctionnalités

  • Chargement et préparation des données textuelles.
  • Tokenisation et transformation des données pour Camembert.
  • Entraînement, évaluation et ré-entraînement du modèle.
  • Prédiction de la toxicité sur de nouveaux échantillons de texte.
  • Optimisation des hyperparamètres avec Optuna.
  • Intégration des retours des utilisateurs pour le ré-entraînement.

Bibliothèques Utilisées

  • logging, sys, numpy, pandas : Pour la manipulation des données et le logging.
  • datasets, sklearn, transformers, torch : Outils d'apprentissage automatique et de deep learning.
  • gc, signal, time, random, optuna, os : Diverses fonctionnalités de gestion de systèmes et d'optimisation.
  • sqlite3 : Pour la gestion des bases de données SQLite dans le script de ré-entraînement.

Structure du Projet

  • ToxicityClassifier : Classe pour la construction, l'entraînement et l'évaluation initiale du modèle.
  • ToxicityReTrainer : Classe pour le ré-entraînement du modèle avec de nouvelles données.
  • LoggingCallback : Callback pour l'enregistrement des logs pendant l'entraînement.

Utilisation

Pour utiliser ce projet, installez les dépendances requises et suivez les instructions spécifiques dans le script principal pour l'entraînement, l'évaluation et le ré-entraînement du modèle.

Ré-Entraînement du Modèle

Le script de ré-entraînement permet d'ajuster et d'améliorer le modèle existant avec de nouvelles données. Il charge les nouvelles données d'une base de données SQLite et ré-entraîne le modèle Camembert pré-existant.

Utilisation du Ré-Entraînement

  1. Préparez le modèle pré-entraîné et le nouveau fichier de données.
  2. Exécutez le script de ré-entraînement pour ajuster le modèle.

Contribution et Licence

Les contributions à ce projet sont les bienvenues. Veuillez soumettre vos pull requests sur GitHub. Ce projet est distribué sous la licence MIT.