Кейс: Изучить фокусированную библиотеку ингибиторов A2aAR. Предложить способ поиска в ней потенциально активных молекул. Выбрать несколько возможных кандидатов и объяснить свой выбор.
Файл: non-specific_filter.ipynb
Прежде всего попробуем провести виртуальный скрининг. Библиотека, безусловно, уже является фокусированной, но соединений в ней по-прежнему достаточно много: 20323 штук. Надо попробовать отобрать по крайней мере “хорошие” соединения простейшим отбором.
Для начала проведём неспецифическое фильтрование (препроцессинг), чтобы выбрать соединения, обладающие наиболее приемлемыми свойствами. Для этого отфильтруем соединения по их физико-химическим свойствам (правила Липински, правила “lead-likeness” и “drug-likeness”), отфильтруем соединения по токсофорам. Затем планировалось применить подструктурные фильтры (PAINS, например), однако с ними возникли некоторые проблемы. К тому же, есть мнение, что процент ложных срабатываний у них бывает слишком высок.
По правилу Липински биодоступность оптимальна, если:
- H-bond donors < 5
- MW < 500
- LogP < 5
- H-bond acceptors < 10
По критериям “lead-likeness”:
- Rotatable bonds < 10
- Rings > 0
- Chiral centers < 3
Для исключения соединений, содержащих наиболее распространённые токсофоры, я воспользовалась scopy.ScoTox.
По итогам препроцессинга (Липински, частично lead-likeness, токсофоры) осталось 2138 молекул, найти которые можно в accepted_smiles.txt. Получается, удалось сократить датасет примерно на 90%.
Сходство с активными соединениями (индекс Танимото для сравнения фингерпринтов) — виртуальный скрининг на основе молекулярного подобия (SBVS). Представляется логичным, что если некая молекула похожа на молекулу с уже установленной активностью, то вероятность того, что исследуемая молекула будет обладать требуемой активностью, выше. Поэтому для данного фрагмента исследования я решила взять несколько формул известных ингибиторов A2aAR и посчитать инжекс Танимото для оставшихся в датасете молекул, чтобы выделить среди них наиболее похожие.
Соединения для сравнения были взяты отсюда.
Был рассчитан индекс Танимото для всех отобранных ранее молекул. Файл можно посмотреть вот тут. Было решено отобрать все молекулы, у которых индекс Танимото для той или иной референсной молекулы был больше 0.25.
В результате получился список из 47 молекул. Это немного меньше (сильно меньше), чем я ожидала, но исследование продолжается.
Для дальнейших исследований возьмём структуру 4EIY в формате .pdb
Полученные на предыдущем шаге SMILES конвертируем в формат .pdbqt, подходящий для докинга в Autodock, при помощи open babel. Получившиеся файлы находится здесь.
Прежде всего удалим лишние молекулы, которые "привязались" к этой структуре. Затем необходимо приготовить саму молекулу белка и проверить, нет ли отсутствующих атомов:
Теперь добавим полярные водороды:
И Kollman Charges:
Теперь проверим, равномерно ли распределены заряды. Оказывается, что нет:
Распределим заряды равномерно:
И проверим снова. Теперь всё в порядке:
Наконец, можно добавлять лиганды. Однако, как обычно, что-то пошло не по плану, и ни один лиганд не был открыт, из-за чего вся дальнейшая работа полностью остановилась:
Файл с "чистой" структурой (вместе с сайтами связывания, которые были сочтены AutoDock наиболее интересными) был сохранён как 4eiy_clean.pdb.
Ввиду проблем с AutoDock было принято решение использовать Schrodinger Maestro.
Импортируем структуры из файла tanimoto_smiles.txt и обрабатываем при помощи LigPrep:
При помощи Protein Wizard Preparation оптимизируем структуру 4EIY:
Посмотрим заодно на лиганд:
И его позу:
Полученные результаты находятся в файле mols_docking.csv.