Идея: построить классификационную модель, которая сможет определять, является ли молекула потенциальным ингибитором человеческой ацетилхолинэстеразы.
Данные были взяты из базы данных chembl. Были выбраны все молекулы, связанные с ацетилхолинэстеразой, и записаны в ache_data.csv
Файл: data_preprocessing.ipynb
Результат: data.csv
Для препроцессинга было сделано следующее:
- Выбраны все строки, содержащие значения IC50 (полуингибирующая концентрация)
- Выбраны все значения IC50, выраженные в наномолярной концентарции
- Удалены все отсутствующие значения ( ! попробовать восстановить классы по индексу Танимото ! )
- Удалены дубликаты по уникальному айди
- Расставлены метки классов (активные 1 и неактивные 0) по правилу: активными молекулами считаются те, чьи IC50 меньше или равны 500 нМ
Неактивных молекул — 3646
Активных молекул — 1993