Модели машинного обучения (МО) не являются безошибочными. Чтобы предотвратить их эксплуатацию злоумышленниками, исследователи разработали различные методы, позволяющие сделать их более надежными. Инженер-исследователь Алекс Саад-Фалькон рассказывает на портале InformationWeek о том, как защитить нейронные сети от атак.

Все нейронные сети подвержены «состязательным атакам», когда злоумышленник приводит пример, предназначенный для того, чтобы обмануть сеть. В случае успеха он сможет эксплуатировать любую систему, использующую нейронную сеть. К счастью, существуют известные методы, которые могут смягчить или даже полностью предотвратить такой тип атак. По мере того, как компании осознают опасность состязательных атак, область состязательного МО быстро растет.

Системы распознавания лиц

Рассмотрим небольшой, но показательный пример, как можно использовать потенциальные уязвимости систем распознавания лиц (Face recognition systems, FRS).

С ростом доступности наборов больших данных для FRS-проектов такие методы машинного обучения, как глубокие нейронные сети, становятся чрезвычайно привлекательными из-за простоты создания, обучения и развертывания. В то же время FRS, основанные на нейронных сетях, наследуют их уязвимости. Если оставить их без внимания, FRS окажется уязвимой для атак нескольких типов.

Физические атаки

Самая простая и очевидная атака — это «презентационная атака» (presentation attack), когда злоумышленник просто демонстрирует перед камерой фотографию или видео человека — предполагаемой жертвы. Чтобы обмануть FRS, злоумышленник также может использовать реалистичную маску. Хотя такие атаки могут быть довольно эффективными, они легко обнаруживаются сторонними наблюдателями или операторами.

Более тонким вариантом является атака с помощью физической пертурбации (physical perturbation). Чтобы обмануть FRS, злоумышленник одевает что-то специальное, например, окрашенные очки. Как правило, человек правильно классифицирует человека, понимая, что это незнакомец, тогда как нейронная сеть FRS может быть обманута.

Цифровые атаки

FRS гораздо более уязвимы для цифровых атак. Злоумышленник со знанием базовой нейронной FRS-сети может тщательно пиксель за пикселем создать картинку, чтобы идеально обмануть сеть и выдать себя за кого угодно. Это делает цифровые атаки гораздо более коварными, чем физические, которые более заметны.

Цифровые атаки имеют несколько разновидностей. Хотя все они относительно незаметные, шумовая атака в наибольшей степени воздействует на подсознательном уровне. Изображение злоумышленника видоизменяется путем наложения на него специального шума, при этом каждое значение пикселя изменяется в пределах 1%. Для человека результат выглядит полностью идентичным оригиналу, но нейронная сеть регистрирует его как совершенно другое изображение. Это позволяет злоумышленнику оставаться незамеченным как оператором, так и FRS.

Среди других типов цифровых атак — трансформационные и генеративные. Чтобы обмануть FRS при трансформационных атаках применяют поворот лица или глаз. Генеративные атаки используют преимущества сложных моделей для создания изображений атакующего со структурой лица, схожей со структурой лица жертвы.

Возможные решения

Чтобы в целом должным образом устранить уязвимости FRS и нейронных сетей, нужно разобраться с проблемой надежности МО. Ее решение помогает справиться с универсальными проблемами несогласованности в развертывании модели МО и дает ответы на вопросы о том, как смягчить состязательные атаки.

Одним из возможных способов повышения надежности нейронных сетей является включение в обучение состязательных примеров. Это обычно приводит к тому, что модель менее точно распознает обучающие данные, но лучше справляется с обнаружением и отклонением атак противника после развертывании. Дополнительным преимуществом является то, что модель будет более последовательно работать на реальных данных, которые часто являются зашумленными и противоречивыми.

Другим распространенным способом повышения надежности является использование более одной модели МО с ансамблевым обучением. В случае FRS можно совместно использовать несколько нейронных сетей с различными структурами. Различные нейронные сети имеют различные уязвимости, поэтому состязательная атака может одновременно эксплуатировать уязвимости только одной или двух сетей. Поскольку окончательное решение принимается «большинством голосов», состязательные атаки не могут обмануть FRS, не обманув большинство нейронных сетей. Это потребовало бы значительной коррекции изображения, что станет легко заметным FRS или оператору.

Вывод

Экспоненциальный рост данных в различных областях сделал нейронные сети и другие модели МО отличными кандидатами для решения множества задач. Проблемы, на решение которых раньше уходили тысячи часов, теперь имеют простые и элегантные решения. Например, код Google Translate был сокращен с 500 000 строк до всего лишь 500. Эти достижения, однако, несут в себе опасность состязательных атак, которые могут использовать структуру нейронной сети в злонамеренных целях. Чтобы бороться с этими уязвимостями, для обнаружения и предотвращения хакерских атак необходимо применять методы повышения надежности МО.