Мы представляем прототип ChemXOR, инструмента для построения зашифрованных моделей ИИ для прогнозирования активности лекарств.

Наше полное зарегистрированное название — Инициатива Ersilia Open Source. Мы участвовали в общественных мероприятиях, таких как конкурсы Малярия с открытым исходным кодом и Антибиотики с открытым исходным кодом, мы участвовали в программах инкубаторов в Институте устойчивого развития программного обеспечения, Открытой науке о жизни и Кодексе для науки и общества. », и мы выпускаем программное обеспечение по наиболее разрешительным лицензиям, позволяющим неограниченное использование, воспроизведение и модификацию наших цифровых активов. Таким образом, становится ясно, что мы очень серьезно относимся к принципам открытого доступа и открытой науки (возможно, слишком серьезно, поскольку мы ежедневно публикуем прогресс, даже когда все еще не закончено и не задокументировано и содержит ошибки и недееспособные). Соблюдение этих принципов привело к самым приятным и неожиданным результатам для нашей технической некоммерческой организации, но также справедливо сказать, что с точки зрения финансирования это могло быть добровольным ограничением. Иногда я опасаюсь, что Эрсилия — это благотворительная организация, которая выглядит как стартап, который, вероятно, не очень привлекателен для среднего спонсора. Мы предлагаем высокий риск, небольшой послужной список и отсутствие возврата инвестиций. Таким образом, мы не попадаем в поле зрения венчурных капиталистов (мы знали это), но мы также изо всех сил пытаемся убедить благотворительных организаций и доноров грантов в целом, крупных или мелких, которые (по понятным причинам) ожидают увидеть какие-то предыдущие доказательства, что-то, что помогает они представляют себе, как их вклад превратится в ощутимую пользу для общества.

По иронии судьбы первый полученный нами грант назывался Сохраняющий конфиденциальность ИИ для открытия лекарств. Это Biopharma Speed ​​Grant, предоставленный компанией Merck. Конфиденциальность — это не то слово, которое такая благотворительная организация, как наша, должна использовать слишком часто, уж точно не в качестве первого слова в своем первом в истории финансируемом проекте и уж точно не в контексте открытия новых лекарств. Я не имею в виду конфиденциальность данных пациентов, анонимность клинических образцов, конфиденциальные личные данные и так далее. Я говорю о конфиденциальности молекул лекарств, хранении их в секрете, запрете, запирании за стенами интеллектуальной собственности и во власти правил ведения бизнеса. Я понимаю, почему эти вещи должны существовать в мире, и у нас нет планов противостоять им, но это не то, чему мы должны способствовать. Не учитывая наш дискурс и минимальные ресурсы. Звучит как полное противоречие, внезапный поворот в нашей дорожной карте, в лучшем случае — обходной путь.

Сохраняющий конфиденциальность ИИ для развития научного сотрудничества

Думаю, я пишу эту запись в блоге, чтобы объяснить, почему, глядя на картину в целом, мы считаем, что ИИ с сохранением конфиденциальности может эффективно способствовать доступности данныхи, в конечном счете, приносить пользу исследователям, работающим в настройки ресурсов. Под данными я подразумеваю результаты, полученные в результате дорогостоящих экспериментов, проведенных в лабораториях и больницах (Глобального Севера) для проверки эффективности и безопасности потенциальных лекарств-кандидатов. Учитывая только эксперименты, доступные в научной литературе, мы уже можем собрать миллионы соединений и десятки миллионов точек данных, коллективно предоставленных научным сообществом за десятилетия исследований. Доступ к этим наборам данных имеет основополагающее значение для создания решений на основе ИИ и, мы надеемся, ускорит открытие лекарств будущего. Небольшим лабораториям с недостаточным финансированием эти общедоступные данные нужны для продолжения работы, особенно если у них нет возможности самостоятельно производить большое количество экспериментальных данных. Десятки миллионов общедоступных точек данных могут показаться большими, но на самом деле это не так. Это лишь небольшая, значительная, но незначительная часть информации, которая существует снаружи.

Очевидно, что большинство наборов данных разрознены на компьютерах фармацевтических компаний. Мир науки преобразился бы (к лучшему), если бы все эти знания были раскрыты. Но я не вижу, чтобы это произошло в ближайшее время. Процесс обнаружения лекарства представляет собой последовательность фильтров, начиная с миллионов соединений-кандидатов и заканчивая, если повезет, одной молекулой на рынке. На каждом этапе фильтрации есть определенный анализ, задающий конкретный вопрос. Растворима ли молекула в воде? Убивает ли он патоген in vitro? Является ли он токсичным для клеток человека, культивируемых в лаборатории? А на мышах он токсичен для мышей? В какой дозе? И ниже этой дозы он все еще убивает патоген в крови инфицированных мышей? И так далее, и так далее, вплоть до клинических испытаний. Если задуматься, обнаружение наркотика — это поиск плохих кандидатов как можно скорее. Только одна из миллионов молекул пройдет через фильтры, так почему эти фармацевтические компании не публикуют данные, связанные с выброшенными соединениями? В любом случае для них это мусор, и это было бы ценным подарком. научному сообществу, особенно специалистам по искусственному интеллекту (и таким паразитам-исследователям, как мы). Если я приложу усилия, я смогу понять, почему эти данные должны быть защищены (как я объясню в следующем абзаце), но, если быть до конца честным, я считаю, что архивирование результатов экспериментов вообще является позорной практикой. За свою карьеру я имел дело с достаточным количеством частных фармацевтических данных, чтобы понять, что во многих случаях вся секретность не имеет смысла и является просто позицией по умолчанию. Но, как мы знаем, секреты заставляют ничем не примечательное выглядеть примечательным, и если вам случится в конце концов поделиться секретом, вы можете попросить еще один взамен. В любом случае.

Я имел в виду: если я приложу усилия, я смогу понять, почему фармацевтические компании неохотно делятся своими историческими архивными наборами данных. Возможно, самым важным активом этих компаний является коллекция соединений-кандидатов, которая пропущен через процесс обнаружения наркотиков. Эта коллекция часто используется совместно между проектами и представляет собой постоянно растущий свод ноу-хау в области медицинской химии. Раскрытие идентичности этих соединений привело бы к немедленной и катастрофической потере конкурентного преимущества, а также к саботажу патентов и исключительных прав на рынке. Крупные фармацевтические компании публично заявили о своей готовности принять принципы открытой науки, но подорвать их центральную опору, вероятно, слишком сложно. Таким образом, возникает вопрос: есть ли способ опубликовать эти архивные наборы данных, не раскрывая личности соединений? Эффективный способ, который научное сообщество может использовать и использовать.

Конечно, есть способ. Модели ИИ — это не что иное, как алгоритмы, которым было приказано «учиться» на заданном наборе данных. Модель ИИ, построенная, например, на данных о противомалярийной активности, должна распознавать молекулярные признаки, которые делают хорошее противомалярийное соединение, и она должна делать это в свете обучающего набора данных. С точки зрения пользователя, запрос полученной модели ИИ — в данном случае ввод интересующей молекулы и получение на выходе прогноза ее противомалярийного потенциала — является совершенно правильным действием. Прелесть его в том, что модель ИИ — это просто набор чисел, матриц и алгебраических операций, поэтому структура соединений, используемых для обучения модели, в ней явно не отображается. Пользователь не знает, какие молекулы пошли на создание модели ИИ, но тем не менее использует ее, потому что в ней есть законная ценность. Есть ценность в инструменте, который изучил, какими бы средствами и в свете каких бы то ни было защищенных обучающих данных, молекулярные признаки, которые делают хорошее противомалярийное средство.

Прототип инструмента для шифрования моделей ИИ для разработки лекарств

Таким образом, было бы невероятным событием, если бы каждая фармацевтическая компания обучила одну модель ИИ на основе каждого из своих архивных наборов данных, а затем выпустила получившийся набор инструментов ИИ для всех желающих. Это эффективно разблокировало бы их личные данные. без ущерба для интеллектуальной собственности. Мне не ясно, как мы должны стимулировать это со стороны государственного сектора, но тем не менее, я думаю, что это было бы захватывающим событием, чтобы стать свидетелем. Год назад в Эрсилии мы решили двигаться в этом направлении. Однако, с нашей стороны, и с технической точки зрения, все дело более тонкое, чем кажется. Как оказалось, не исключено, что злоумышленник сможет реконструировать исходные обучающие данные, основываясь исключительно на архитектуре и параметрах модели ИИ. То есть, злоумышленник при запросе ИИ модель настойчиво, а наблюдение за ней и следование определенной стратегии может позволить сделать вывод об идентичности молекул, наблюдаемых моделью ИИ во время обучения. Тень этой возможности, какой бы маловероятной она ни была, представляет непозволительный риск для любой фармацевтической компании.

Размышляя о злонамеренных пользователях, мы также немного лучше поняли добропорядочных пользователей. В конце концов, их будет подавляющее большинство: ученые, честно работающие и надеющиеся получить представление о недавно выпущенных моделях ИИ, основанных на данных фармацевтических компаний. Возможно, мы подумали, мы также должны уважать конфиденциальность этих ученых (пользователей), в дополнение к конфиденциальности компаний (поставщиков данных). Ученые и научно-исследовательские институты имеют право иметь собственную программу защиты интеллектуальной собственности. Они, вероятно, будут колебаться перед тем, как модель ИИ будет размещаться в облаке или размещаться в частной компании, если только не будет полностью гарантирована секретность их входных молекул.

Таким образом, идеальным вариантом будет экосистема зашифрованных моделей ИИ (без риска обратного проектирования), развернутая таким образом, чтобы пользователи могли использовать их в частном режиме, если они того пожелают. Это то, чего мы пытались достичь, разрабатывая ChemXOR, библиотеку Python для ИИ с сохранением конфиденциальности, ориентированного на приложения для разработки лекарств. Наш коллега Анкур Кумар заслуживает за это большой похвалы. ChemXOR делает следующее:

  1. Он предлагает платформу для обучения моделей ИИ прогнозированию активности соединений на основе базового набора дескрипторов малых молекул и архитектур нейронных сетей (простота для специалиста по данным).
  2. Он автоматически шифрует результирующие параметры модели ИИ (конфиденциальность для поставщика данных).
  3. Он шифрует пользовательский ввод и возвращает зашифрованный вывод (прогноз), который может быть расшифрован только тем же пользователем. Все это происходит автоматически (конфиденциальность для пользователя).

Код и документация доступны здесь и здесь, также вы можете найти более подробный отчет здесь. ChemXOR — это всего лишь прототип, который мы предлагаем как техническая некоммерческая организация, потому что искренне или наивно верим в эту концепцию на стыке конфиденциальности данных и открытого доступа применительно к открытию лекарств. Мы готовы развивать инструмент дальше, но, если быть до конца честными, нам сначала нужно узнать, есть ли к нему интерес. Здесь мы можем также мечтать (это случалось с нами несколько раз), и мы не в состоянии призвать фармацевтические компании к действию. Поэтому, если у этих частных заинтересованных сторон нет подлинного желания делиться данными (то есть предлагать модели ИИ), все усилия будут тщетными. Пожалуйста, свяжитесь с нами, если у вас есть мысли по этому поводу. Мы будем рады их обсудить и, надеюсь, вместе разработаем стратегию следующего маленького шага к тому, чтобы сделать данные фармацевтических компаний доступными для всех.