Синтетические данные не обеспечивают надежной защиты конфиденциальности
27 сентября 2021 года
Результаты нового исследования специалистов из Федеральной политехнической школы Лозанны (EPFL) в Париже и Университетского колледжа Лондона (UCL) ставят под сомнение растущую уверенность в том, что синтетические данные могут решить проблемы конфиденциальности, которые угрожают прогрессу в сфере машинного обучения.
Как утверждают эксперты, синтетические данные, смоделированные на основе реальных данных, сохраняют достаточно подлинной информации для успешного проведения атак логического вывода и membership-атак, направленных на деанонимизацию данных и повторное восстановление связей с реальными людьми.
«Имея доступ к синтетическому набору данных, противник может с высокой степенью уверенности сделать вывод о наличии целевой записи в исходных данных», — сообщили специалисты.
Дифференциально частные синтетические данные, скрывающие подпись отдельных записей, действительно защищают личную жизнь людей, но только за счет значительного снижения полезности систем поиска информации, которые их используют. Как сообщили исследователи, синтетические наборы данных не обеспечивают должный уровень прозрачности.
Исследователи провели тесты существующих частных алгоритмов обучения генеративной модели и обнаружили, что определенные решения по реализации нарушают формальные гарантии конфиденциальности, оставляя различные записи уязвимыми для атак логического вывода.
Авторы предложили пересмотренную версию каждого алгоритма, потенциально снижая эти риски, и сделать код доступным в виде библиотеки с открытым исходным кодом. Это поможет исследователям оценить повышение конфиденциальности синтетических данных и сравнить популярные методы анонимизации.
Для целей исследования ученые оценили повышение конфиденциальности с помощью пяти алгоритмов обучения генеративной модели. Три модели не обеспечивают явной защиты конфиденциальности, в то время как две другие предоставляют дифференцированные гарантии конфиденциальности. Эти табличные модели были выбраны для представления широкого спектра архитектур. В ходе эксперимента были атакованы табличные модели BayNet, PrivBay (производное от PrivBayes и BayNet), CTGAN, PATEGAN и IndHist.
Платформа оценки моделей была реализована в виде библиотеки на языке Python с двумя основными классами — GenerativeModels и PrivacyAttacks. Платформа также может оценивать преимущества конфиденциальности анонимных и синтетических данных.
В тестах использовались два набора данных: набор данных для взрослых из репозитория машинного обучения UCI и файл данных общего пользования с данными о выписке из больницы из Департамента здравоохранения штата Техас. Версия набора данных Техаса, используемая исследователями, содержала 50 тыс. записей, взятых из историй болезни пациентов за 2013 год.
Авторы выбрали две целевые группы, состоящие из пяти случайно выбранных записей для категорий «меньшинства» населения, поскольку они наиболее подвержены риску атак атакам «связывания». Они также выбрали записи с «редкими значениями категориальных атрибутов» за пределами 95% квантиля этих атрибутов. Примеры включают записи, связанные с высоким риском смертности, высокими общими расходами в больнице и тяжестью заболевания.
Множественные модели атак были обучены на основе общедоступной справочной информации для разработки «теневых моделей» по десяти целям. Как показали результаты ряда экспериментов, ряд записей был «очень уязвим» для атак. Результаты также показали, что 20% всех целей в испытаниях получили нулевой выигрыш в конфиденциальности от синтетических данных, полученных с помощью методов GAN.
Результаты варьировались в зависимости от метода, используемого для генерации синтетических данных, вектора атаки и характеристик целевого набора данных. Во многих случаях эффективное подавление личности с помощью подходов к синтетическим данным снижает полезность систем. Фактически, полезность и точность таких систем во многих случаях могут быть прямым показателем того, насколько они уязвимы для атак повторной идентификации.
Источники[править]
Эта статья содержит материалы из статьи «Синтетические данные не обеспечивают надежной защиты конфиденциальности», опубликованной на сайте SecurityLab.ru и распространяющейся на условиях лицензии Creative Commons Attribution 3.0 Unported (CC-BY 3.0 Unported). |
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.
Комментарии[править]
Если вы хотите сообщить о проблеме в статье (например, фактическая ошибка и т. д.), пожалуйста, используйте обычную страницу обсуждения.
Комментарии на этой странице могут не соответствовать политике нейтральной точки зрения, однако, пожалуйста, придерживайтесь темы и попытайтесь избежать брани, оскорбительных или подстрекательных комментариев. Попробуйте написать такие комментарии, которые заставят задуматься, будут проницательными или спорными. Цивилизованная дискуссия и вежливый спор делают страницу комментариев дружелюбным местом. Пожалуйста, подумайте об этом.
Несколько советов по оформлению реплик:
- Новые темы начинайте, пожалуйста, снизу.
- Используйте символ звёздочки «*» в начале строки для начала новой темы. Далее пишите свой текст.
- Для ответа в начале строки укажите на одну звёздочку больше, чем в предыдущей реплике.
- Пожалуйста, подписывайте все свои сообщения, используя четыре тильды (~~~~). При предварительном просмотре и сохранении они будут автоматически заменены на ваше имя и дату.
Обращаем ваше внимание, что комментарии не предназначены для размещения ссылок на внешние ресурсы не по теме статьи, которые могут быть удалены или скрыты любым участником. Тем не менее, на странице комментариев вы можете сообщить о статьях в СМИ, которые ссылаются на эту заметку, а также о её обсуждении на сторонних ресурсах.