Почему DeepMind не хочет делиться исходным кодом своей прорывной разработки?
В этом месяце компания Google DeepMind представила в журнале Nature новейшую версию своей системы ИИ AlphaFold3 для предсказания структуры белков. Однако, в отличие от AlphaFold2, публикация не содержала исходного кода, описывающего алгоритмы модели.
Это решение вызвало широкое недовольство ученых, так как отсутствие кода не позволяет им всесторонне изучить, воспроизвести и модифицировать работу программы. Более 600 исследователей, включая рецензентов Nature , подписали открытое письмо с критикой закрытого проекта. Они заявили, что это идет вразрез с принципами научного сообщества, основанного на возможности оценивать, использовать и развивать существующие наработки.
Спустя несколько дней DeepMind пообещала выпустить код AlphaFold3 и обученные на нем весовые коэффициенты для академического использования через 6 месяцев. В своем редакционном комментарии Nature признала важность открытости научных данных, но отметила, что большинство исследований финансируется частными компаниями, а их результаты часто остаются закрытыми.
Однако ученые опасаются, что академическая версия AlphaFold3 не сможет предсказывать структуры белков в комплексе с потенциальными лекарственными соединениями. Такая возможность критически важна для разработки новых медикаментов путем моделирования взаимодействия белков-мишеней с различными молекулами-кандидатами на роль лекарства. Кроме того, использование AlphaFold3 будет ограничено только некоммерческими исследованиями.
Поэтому многие исследовательские группы начали разработку собственных открытых версий AlphaFold3 без ограничений. Команда OpenFold из Колумбийского университета под руководством Мохаммеда АльКурайши уже приступила к программированию своего аналога, рассчитывая завершить его в 2024 году.
По словам АльКурайши, исследователи опасаются, что возможности ИИ для разработки лекарств окажутся монополизированы одной компанией. Открытый код позволит обучать модели на внутренних данных фармкомпаний для повышения точности предсказаний.
По оценкам Сергея Овчинникова из MIT, для полного переобучения AlphaFold3 «с нуля» на тех же данных, что использовала DeepMind, может потребоваться более $1 млн на облачные вычисления. Однако, существуют пути оптимизации, которые помогут сэкономить ресурсы без критической потери производительности.
Независимый инженер Фил Уанг, ранее создававший открытые версии ИИ-систем вроде DALL-E, также начал коллективную разработку open-source версии AlphaFold3 совместно с волонтерами. Его команда рассчитывает за месяц воссоздать код модели по деталям из публикации, после чего начнется сложный этап обучения на структурных данных.
В то же время некоторые ученые пытаются взломать веб-сервер AlphaFold3 от DeepMind, чтобы обойти ограничения и получить более точные формулы соединений, встроенных в клеточные мембраны и взаимодействующих с молекулами жиров.
Группа под руководством Дэвида Бейкера из Университета Вашингтона в Сиэтле изучает, как достижения AlphaFold3 можно применить для усовершенствования собственной открытой системы RoseTTAFold, предсказывающей структуру не только белков, но и низкомолекулярных химических соединений.
Открытые версии AlphaFold3 позволят не только детально изучить ее архитектуру, но и значительно расширить возможности предсказания структур белков, потенциальных лекарств, новых материалов, катализаторов и источников энергии на атомарном уровне.
Споры вокруг открытости кода для AlphaFold3 показывают, что принципы открытой науки имеют решающее значение для сферы искусственного интеллекта. От доступности данных таких передовых ИИ-систем напрямую зависят темпы критически важных открытий в медицине, биотехнологиях, энергетике и материаловедении.
Источник: Securitylab.ru.
Изображение для превью новости предоставлено Freepik.