Из книги Машинное обучение с сохранением конфиденциальности Дж. Морриса Чанга, Ди Чжуанга и Г. Думинду Самаравира

В этой статье рассматривается, как алгоритмы машинного обучения взаимодействуют с данными, и важность сохранения конфиденциальности данных.

Прочтите ее, если вы инженер по машинному обучению или разработчик, использующий машинное обучение.

Машинное обучение (МО) можно рассматривать как способность алгоритма имитировать интеллектуальное человеческое поведение с точки зрения выполнения сложных задач таким же образом, как люди решают проблемы, рассматривая данные под разными углами и анализируя их в разных областях. Как мы видим, этот процесс обучения используется различными приложениями в нашей повседневной жизни, от систем рекомендаций по продуктам на онлайн-порталах до сложных механизмов обнаружения вторжений в приложениях интернет-безопасности.

ИСПОЛЬЗОВАНИЕ ЛИЧНЫХ ДАННЫХ НА ЛЕТУ

С точки зрения получения результатов с высокой степенью достоверности приложения машинного обучения требуют огромных объемов данных, собранных из различных источников. Запросы веб-поиска, история просмотров, история транзакций онлайн-покупок, предпочтения в фильмах, отдельные отметки о местоположении — это часть информации, которая собирается и хранится ежедневно, большую часть времени даже не будучи известна пользователям. Часть этой информации является частной для отдельных лиц и каким-то образом загружается на высокопроизводительные централизованные серверы, в основном в текстовом формате, для использования алгоритмов машинного обучения для извлечения шаблонов и построения из них моделей машинного обучения.
Однако проблема не ограничивается сбором этих личных данных различными приложениями машинного обучения. Сначала они подвергаются инсайдерским атакам, когда информация доступна для внутренних сотрудников этих компаний. Например, администраторы баз данных или разработчики приложений могут иметь доступ к этим данным без особых ограничений. С другой стороны, эти данные также могут быть подвержены внешним хакерским атакам, которые могут раскрыть личную информацию внешнему миру. Кроме того, что самое главное, из приватных данных можно извлечь дополнительную информацию, даже если они анонимизированы или недоступны наборы данных и модели машинного обучения и раскрываются только результаты тестирования.

КАК ДАННЫЕ ОБРАБАТЫВАЮТСЯ ВНУТРИ АЛГОРИТМОВ МО?