Предсказание матрицы контактов для коротких пептидов с использованием свёрточной нейронной сети

7 Jul 2022, 16:50
15m
Presentation Track 3. Machine Learning in Natural Sciences Session 3. Machine learning in Biology and Other Natural Sciences

Speaker

Artem Maminov (FRC CSC RAS)

Description

В данной работе предлагается рассмотреть метод предсказания матрицы контактов для пептидов. В данной статье были выбраны пептиды с длинной до 45 аминокислотных остатков для упрощения расчётов. Для предсказания использовались свёрточные нейронные сети (CNN) из-за схожести пространства признаков белков и изображений, к котором обычно успешно применяются свёрточные нейронные сети. Признаки были созданы с использованием инструмента SCRATCH (генерации вторичной структуры, растворимости и профиля белка PSSM). CNN реализована на языке программирования Python c применением библиотеки Keras. Для работы со структурами белков использовался модуль BioPython, позволяющий извлекать матрицу расстояний между атомами каркаса белка и на основе этой матрицы рассчитывать матрицу контактов нативной структуры. В результате были сформированы обучающие, валидационные и тестовые выборки. Была построена многослойная свёрточная нейронная сеть для решения задачи мультивыходной бинарной классификации. Для оценки качества предсказания были построены матрицы неточностей для порога в 8 и 12 $\dot{А}$, рассчитаны метрики F1-score (0.78), recall (0.73) и precision (0.86). Также был использован инструмент FT-COMAR для восстановления третичной структуры из предсказанной матрицы контактов и сравнения с нативной структурой по метрики RMSD. Среднее значение метрики RMSD по выборке белков равно 6.76 и 5.84 $\dot{А}$ для порогов 8 и 12 $\dot{А}$ соответственно.

Agreement to place Participants agree to post their abstracts and presentations online at the workshop website. All materials will be placed in the form in which they were provided by the authors

Primary author

Artem Maminov (FRC CSC RAS)

Presentation materials