Влияние машинного обучения на конфиденциальность данных

По мере того, как мир движется к цифровизации, каждый день собирается все больше личной и личной информации. Эти данные необходимо обрабатывать и изучать, чтобы организации могли внедрять инновации.

В новую информационную эру, когда данные — это новая нефть, конфиденциальность данных становится одной из самых больших проблем для правительств и общества. В этой среде во всем мире появляются новые правила и законы о конфиденциальности, которые меняют ландшафт проектов по работе с данными и создают новые сложные реалии.

Пришло время переосмыслить конфиденциальность данных!

Маскировка… решение?

Одним из наиболее часто используемых решений для тех, кому необходимо манипулировать и проводить исследования или разработки с конфиденциальными данными, является маскирование данных. Маскирование данных скрывает от пользователей элементы данных, которые считаются конфиденциальными и которые нельзя показать лицам, работающим с самими данными. Как правило, он заменяет элементы данных похожими на фальшивые данные, но обеспечивает важные части информации, позволяющей установить личность. В отличие от шифрования, маскирование данных вообще необратимо, что делает его совершенно бесполезным для злоумышленников, которые могут попытаться отменить применяемую маскировку. Действительно ли этого достаточно, чтобы предотвратить повторную идентификацию пользователей из базы данных? Ответ прост:это не так.

Риск повторной идентификации реален независимо от того, применялась ли маскировка или шифрование. Это значительно усложняет работу злоумышленникам, но все же возможно. Эта тема хорошо изучена в сообществе приватности:

В 2016 году Федеральное министерство здравоохранения Австралии опубликовало в Интернете медицинские платежные записи примерно 2,9 миллиона австралийцев. Эти записи были получены из Схемы льгот Medicare (MBS) и Схемы фармацевтических льгот (PBS), содержащих записи примерно 10 процентов населения. Выпустив эти потенциально конфиденциальные данные, исследователи проверили их безопасность от атак с повторной идентификацией. Используя только общедоступную информацию, исследователи смогли расшифровать информацию в наборе данных MBS (ссылка).
В США было обнаружено, что 87% населения можно однозначно идентифицировать на основе 5-значного почтового индекса, пола и даты рождения; 53%, вероятно, будут однозначно идентифицированы только по месту (город, поселок или муниципалитет), полу и дате рождения. Даже на уровне округа все еще возможно повторно идентифицировать 18% всего населения США. ("ссылка на сайт").
Призовые данные Netflix — это еще один пример того, как маскировку и шифрование можно легко обратить. Используя исключительно данные за 2005 год, исследователи из Массачусетского технологического института смогли повторно идентифицировать пользователей Netflix с помощью комбинации с открытой базой данных продуктов Amazon. На основе этого сопоставления профилей пользователей можно не только выявить покупательские привычки пользователей, полное имя или даже политические убеждения якобы анонимных лиц (ссылка).

Усугубляет ли машинное обучение проблемы конфиденциальности данных?

Как объяснялось в нашем предыдущем посте, машинное обучение (ML) — это подмножество в области ИИ, для которого требуются большие наборы данных, чтобы оно могло изучать шаблоны с высоким уровнем точности. Но как это влияет на конфиденциальность данных?

Те же проблемы, связанные с конфиденциальностью данных, которые были отмечены с появлением больших данных, также актуальны для машинного обучения:

Возможность повторной идентификации личной информации из больших наборов данных
Доступность данных высокой размерности за счет снижения затрат на хранение
Интеллектуальный анализ неструктурированных данных с использованием методов глубокого обучения и возможность включения многомерных данных в одну единую модель.

Это приводит к совершенно новому уровню доступных данных и возможностей для повторной идентификации частной информации, хотя доступны минимальные личные характеристики. Далее приведу простой пример:

Предположим, что компания проводит некоторый анализ рынка на основе отзывов клиентов. Из соображений конфиденциальности вся личная информация, такая как имя, возраст, пол и т. д., была вычтена из набора данных для анализа. Правомерно ли думать, что знать, что невозможно, например, узнать возраст или даже пол клиента по определенному отзыву правильно? Неправильно! Есть способы полностью переопределить пол на основе тонких различий в выборе слов — Гендерная классификация в Твиттере.

Таким образом, данных, подвергшихся псевдонимизации, то есть маскировке или удалению личных данных, уже недостаточно для соблюдения новых правовых рамок конфиденциальности данных.

В связи с растущим риском повторной идентификации (большие объемы передаваемых персональных данных, увеличение вычислительной мощности, больший объем доступных данных и т. д.) были опубликованы новые правила, касающиеся конфиденциальности данных: в 2016 году федеральный генеральный прокурор ввел Поправка о конфиденциальности (Преступление с повторной идентификацией) в Австралии; Европейский общий регламент по защите данных (GDPR) в 2016 году и Калифорнийский закон о конфиденциальности потребителей, подписанный в 2018 году, — вот некоторые из мер, принятых для обеспечения конфиденциальности данных.

Благодаря этим новым правилам было создано новое определение действительно частных данных. Как указано в 26-м концерте GDPR:

«Принципы защиты данных должны применяться к любой информации, касающейся идентифицированного или идентифицируемого физического лица.

Персональные данные, подвергшиеся псевдонимизации, которые могут быть отнесены к физическому лицу путем использования дополнительной информации, должны рассматриваться как информация об идентифицируемом физическом лице.

Поэтому принципы защиты данных не должны применяться к анонимной информации, а именно к информации, которая не относится к идентифицированному или идентифицируемому физическому лицу или к персональным данным, анонимизированным таким образом, что субъект данных не может быть или больше не может быть идентифицирован».

Заключение

В целом концепции конфиденциальности и безопасности изменились с момента появления больших данных и машинного обучения, и организациям необходимо адаптироваться, чтобы обеспечить наилучшую защиту данных своих клиентов.

Новые правила конфиденциальности процветают для новых уровней конфиденциальности данных за счет регулирования того, как данные могут использоваться, гарантируя, что собранные данные обрабатываются более прозрачным, справедливым и безопасным способом.

Организациям необходимо пересмотреть свои политики в отношении данных как для внутренних, так и для внешних процессов, таких как использование методов анонимизации и конфиденциальности, чтобы оставаться инновационными и использовать последние достижения в области технологий.

Фабиана Клементе — директор по данным в YData — — Открытие данных для специалистов по данным

Влияние машинного обучения на конфиденциальность данных

Маскировка… решение?

Усугубляет ли машинное обучение проблемы конфиденциальности данных?

Заключение

Вопросы по теме