Отравление данных (data poisoning) может стать угрозой для инфраструктуры, если машинное обучение (МО) должным образом не контролируется. Спирос Потамитис, старший специалист по аналитическим данным направления глобальной технологической практики SAS, обсуждает на портале Information Age, к каким последствиям оно может привести и как их избежать.

Все больше организаций обращаются к моделям МО для развития своих технологий искусственного интеллекта (ИИ). Однако угрозу для надежности этих систем может представлять другая тенденция: отравление данных. Ключ к успешному противодействию заключается не только в том, чтобы просто устранить проблему после ее возникновения. Чтобы защитить от нее ценные данные, компании должны полностью осознать серьезность угрозы, понять, почему происходит отравление данных и как защититься от него на протяжении всего процесса создания ИИ-систем.

Возвращение к основам МО

Прежде чем разобраться с тем, что такое отравление данных, стоит вернуться к рассмотрению того, как работают модели МО. Их обучают делать прогнозы, «скармливая» им исторические данные. Само применение этих данных предполагает заведомо ожидаемый результат и характеристики, которые определяют его получение. Эти данные «учат» модель обучаться на прошлом. Затем она может использовать полученные знания для прогнозирования будущего. Как правило, если для обучения модели доступно больше данных, то ее прогнозы будут более точными и стабильными.

Системы ИИ, включающие модели МО, обычно разрабатываются опытными специалистами по аналитической обработке данных. Они тщательно изучают и исследуют их, удаляют отклонения и проводят несколько проверок на целостность и валидность до, во время и после процесса разработки модели. Это означает, что, насколько это возможно, данные, используемые для обучения, действительно соответствуют целям, которых хотят достичь разработчики.

Отравители данных атакуют автоматизацию

Однако что происходит, если процесс обучения автоматизирован? Во время разработки это случается не так часто, но есть много случаев, когда нужно, чтобы модели постоянно обучались на новых оперативных данных: обучение «на рабочем месте». На этом этапе для кого-то не составит труда создать «ложные» данные, которые будут напрямую поступать в системы ИИ и заставлять их выдавать ошибочные прогнозы.

Рассмотрим, например, рекомендательные системы Amazon или Netflix. Рекомендации можно легко изменить, купив продукт для кого-то другого. А можно создать боты, которые будут миллионы раз оценивать программы или продукты. Это явно изменит рейтинги и «отравит» систему рекомендаций. Отравить данные особенно легко, если те, кто в этом замешан, знают, что имеют дело с самообучающейся системой, такой как система рекомендаций. Все, что им нужно — сделать свою атаку достаточно «умной», чтобы пройти автоматическую проверку данных, что обычно не очень сложно.

Другая проблема заключается в том, что отравление данных может быть долгим и медленным процессом. Хакеры могут не торопиться с изменением данных, вводя по несколько за раз. Более того, зачастую это более эффективно, поскольку порционное изменение труднее обнаружить, чем разовый массированный приток данных, и его значительно труднее отменить.

Как предотвратить отравление данных: четыре этапа

Чтобы предотвратить отравление, организации могут предпринять следующее:

  1. создайте сквозной процесс ModelOps и мониторинг всех аспектов производительности моделей и дрейфа данных с помощью современных инструментов управления моделями;
  2. создайте с помощью инструментов управления рабочими процессами бизнес-поток для автоматического переобучения моделей. Это означает, что прежде чем обновленная версия модели начнет работать, ей нужно будет пройти ряд проверок и валидаций, осуществляемых сотрудниками бизнес-подразделений;
  3. наймите опытных специалистов по анализу данных и аналитиков. Многие ошибочно считают, что инженеры-программисты могут решить все технические вопросы, особенно в условиях нехватки квалифицированных и опытных специалистов по анализу данных, однако это не так. Нужны эксперты, которые действительно понимают системы ИИ и алгоритмы МО и знают, что искать, когда мы имеем дело с такими угрозами, как отравление данных;
  4. используйте открытые данные с осторожностью. Они очень привлекательны, поскольку обеспечивают доступ к большему количеству информации для обогащения существующих источников. В принципе, это должно облегчить разработку более точных моделей. Однако открытость — это не только их сильная, но и слабая сторона. Она делает их легкой мишенью для мошенников и хакеров. Недавняя атака на репозиторий PyPI, которая наводнила его спам-пакетами, показывает, насколько это может быть просто.

Настоящее противоядие? Человеческий контроль

Злоумышленники, желающие нарушить целостность результатов МО, уже действуют, и их методы компрометации данных чрезвычайно изощренны. Компании должны уделять пристальное внимание этим четырем пунктам, если они дорожат целостностью своих моделей МО. Однако одним из наиболее эффективных способов предотвращения таких атак является обеспечение контроля над всем процессом МО со стороны человека. Чтобы предотвратить необъективный результат, интеллектуальные машины и люди должны работать вместе. В конечном итоге это приведет к пресечению ультрасовременных попыток манипулирования данными.