Вся известная Вселенная кишит бесконечным числом молекул. Но сколько из этих молекул обладают потенциальными лечебными свойствами, которые можно было бы использовать для разработки жизненно важных лекарств? миллионы? миллиарды? триллионы?
Ответ: novemdecillion или 10 60. Это гигантское число удлиняет процесс разработки лекарств от быстро распространяющихся заболеваний, таких как COVID-19, поскольку оно выходит далеко за рамки того, что могут рассчитать современные модели разработки лекарств. Для сравнения, в Млечном Пути около 100 000 000 000 или 10 8 звезд.
В документе, который будет представлен на Международной конференции по машинному обучению (ICML), исследователи Массачусетского технологического института разработали геометрическую модель глубокого обучения под названием EquiBind, которая в 1200 раз быстрее, чем одна из самых быстрых существующих вычислительных моделей молекулярной стыковки, QuickVina2-W. c успешно связывает молекулы, подобные лекарствам, с белками. EquiBind основан на своем предшественнике, EquiDock, который специализируется на связывании двух белков с использованием метода, разработанного покойным Октавианом-Югеном Ганеа, недавней Лабораторией компьютерных наук и искусственного интеллекта Массачусетского технологического института и Клиникой машинного обучения Абдула Латифа Джамиля в области здравоохранения (клиника Джамиля) postdoc, который также является соавтором статьи EquiBind.
Прежде чем можно будет начать разработку лекарств, исследователи лекарств должны найти многообещающие молекулы лекарств, которые могут должным образом связываться или «стыковаться» с определенными белковыми мишенями в процессе, известном как открытие лекарств. После успешного присоединения к белку связывающее лекарство, также известное как лиганд, может остановить функционирование белка. Если это происходит с важным белком в бактериях, это может убить бактерию и обеспечить защиту человеческого организма.
Тем не менее, процесс открытия лекарств может быть дорогостоящим как в финансовом, так и в вычислительном отношении, поскольку в этот процесс вложены миллиарды долларов, а на разработку и тестирование ушло более десяти лет до окончательного одобрения Управлением по санитарному надзору за качеством пищевых продуктов и медикаментов. Более того, 90% всех лекарств терпят неудачу после испытаний на людях из-за недостаточного эффекта или слишком большого количества побочных эффектов. Один из способов, которым фармацевтические компании компенсируют затраты на эти неудачи, — это повышение цен на успешные лекарства.
Текущий вычислительный процесс для поиска перспективных молекул-кандидатов выглядит следующим образом: большинство современных вычислительных моделей основаны на большой выборке кандидатов в сочетании с такими методами, как оценка, ранжирование и точная настройка для достижения наилучшего «соответствия» между лигандом и белковой молекулы.
Ханнес Старк, сотрудник отдела электротехники и компьютерных наук Массачусетского технологического института и ведущий автор статьи, сравнивает типичные методологии связывания лиганда и белка с «попыткой вставить ключ в замок с большим количеством замочных скважин». Типичные модели требуют много времени и оценивают каждую «подгонку» перед выбором наилучшей. В отличие от этого, EquiBind напрямую предсказывает точное местоположение ключа за один шаг без предварительного знания кармана целевого белка, известного как «слепое сопоставление».
В отличие от большинства моделей, которые требуют многократных попыток найти благоприятное положение лиганда в белке, EquiBind уже имеет встроенные геометрические рассуждения, которые помогают модели изучить базовую физику молекул и успешно обобщить, чтобы делать более точные прогнозы при столкновении с новыми, невидимыми данными.
Публикация этих результатов быстро привлекла внимание отраслевых экспертов, в том числе Пэта Уолтерса, директора по данным Relay Therapeutics. Уолтерс предложил команде протестировать свою модель на существующем лекарстве и белке, используемых при раке легких, лейкемии и желудочно-кишечных опухолях. В то время как большинство традиционных методов стыковки не смогли успешно связать лиганды, которые взаимодействовали с этими белками, EquiBind удалось.
— EquiBind предлагает уникальное решение проблемы стыковки, которое включает в себя как прогнозирование положения, так и идентификацию положения якоря, — говорит Уолтерс. — Этот подход, в котором используется информация из тысяч общедоступных кристаллических структур, может по-новому повлиять на эту область.
— Мы были поражены тем, что в то время как все другие методы давали совершенно неправильные результаты или давали только один правильный результат, EquiBind смог положить его в нужное место, поэтому мы были очень рады видеть результаты, — говорит Старк.
Хотя EquiBind получила множество отзывов от профессионалов отрасли, которые помогли команде рассмотреть практическое применение вычислительной модели, Штерк надеется найти различные точки зрения на предстоящем ICML в июле.
— Прежде всего, я с нетерпением жду отзывов о том, как еще улучшить модель, — говорит он.
— Я хочу обсудить это с исследователями… рассказать им, какими могут быть следующие шаги, и призвать их продолжать и использовать модель для своих собственных работ и для своих собственных методов… у нас уже есть много исследователей, которые связались и спросили, думаем ли мы, , что эта модель может быть полезна для решения их проблемы.
Эта диссертация посвящена памяти Октавиана-Юджина Гане, внесшего решающий вклад в исследования в области геометрического машинного обучения и щедро воспитавшего многих студентов — блестящего ученого со скромной душой.