Каталог ИНИД дополнен новыми данными из области биохимии, биофизики и биомедицины
В рамках развития платформы «Инфраструктура научно-исследовательских данных» (далее — ИНИД) в каталог датасетов платформы был внесен первый набор данных в области биохимии, биофизики и биомедицины.
Датасет, разработанный Институтом биомедицинской химии имени В. Н. Ореховича, создан на основе передовых технологий машинного обучения и предназначен для осуществления структурного анализа белков, связанных с развитием различных заболеваний, включая аберрантные формы белков, возникающие в результате аминокислотных замен или посттрансляционных модификаций.
Для создания базы данных цифровых двойников белков были использованы два крупнейших банка белковых структур — PDB и AlphaFold 2.0 Отбор проводился с помощью нейронной сети, которая использовала комбинацию графовых нейронных сетей (CGN), сверточных нейронных сетей (СNN) и двунаправленных рекуррентных нейронных сетей (RNN). Предлагаемая архитектура обеспечивает распознавание структуры с точностью 84%.
На сегодня удалось собрать и аннотировать около 4 млн 3D-структур фрагментов белков. Они определяются как ключевые элементы в процессе моделирования белков с целью разработки новых методик диагностики, идентификации мишеней для лекарственных препаратов и проектирования миметиков белков с заданными свойствами.
Датасет адресован ученым и исследователям научных учреждений, сотрудникам фармацевтических компаний и студентам, специализирующимся в сферах биохимии, биофизики и биомедицины.
Обновление версии набора данных выходит не реже одного раза в год. Набор доступен в формате CSV.
ИНИД продолжает процесс поиска и интеграции новых источников данных. Приглашаем заинтересованные стороны поделиться своими датасетами с научным сообществом. Для этого можно использовать форму обратной связи на официальном сайте https://data.rcsi.science/ или присоединиться к Telegram-чату https://t.me/data_in_ru.