Компания Trend Micro Incorporated провела исследование, целью которого было выявить новые сферы применения машинного обучения. В том числе сетевой безопасности и защиты данных. Вполне естественно, что для защиты ключевых компонентов сети и особенно ценных данных должны применяться самые современные методы и технологии. С недавних пор машинное обучение считается одним из ключевых инструментов для обеспечения кибербезопасности, и исследователи уже нашли несколько способов его успешного применения в этой сфере.

Перед тем, как рассматривать пути применения машинного обучения в кибербезопасности, важно понять, что вообще означает этот термин. По определению исследователей компании Trend Micro, машинное обучение — это процесс, в ходе которого при помощи специализированных технологических инструментов, компьютер получает возможность изучать и использовать новые данные без обязательного человеческого вмешательства. Продуманные алгоритмы позволяют компьютеризированной платформе обрабатывать и «понимать» данные из огромных хранилищ информации, чтобы приходить к определённым выводам и обнаруживать закономерности—паттерны.

«Система анализирует эти паттерны, группирует их по определённым признакам и затем делает свои выводы или предположения, — пояснили специалисты Trend Micro. — В традиционном машинном обучении компьютер учится расшифровывать информацию, которую люди уже отнесли к определённым категориям и промаркировали, поэтому можно также сказать, что системы на базе машинного обучения — это программы, которые способны учиться, используя подобранные и размеченные людьми массивы данных».

Чем больше эта программа повторяет цикл распознавания и присвоения паттернам категорий, чтобы делать на их основе выводы, тем лучше она «понимает», как это можно делать самостоятельно, без помощи человека или дополнительных написанных людьми скриптов.

Машинное обучение применяется в самых разных отраслях и даёт возможность их участникам изучать полученные компьютерной системой данные, чтобы в дальнейшем использовать их в своей деятельности.

К примеру, Netflix уже несколько лет использует машинное обучение для того, чтобы давать пользователям сервиса индивидуальные рекомендации по поводу контента, который может их заинтересовать. По оценкам аналитической платформы Statwolf, такой подход экономит компании примерно 1 млрд долларов США в год.

Также машинное обучение применяется в работе служб поддержки, чтобы сэкономить время и усилия «живых» сотрудников. По прогнозам консалтинговой компании Gartner, к 2020 году большинство (85%) всех обращений в службы поддержки будет обрабатываться чат-ботами с использованием технологий машинного обучения.

Но подобные технологии не только помогают сэкономить средства при работе с обращениями клиентов. По данным Statwolf специалисты в сфере маркетинга тратят до 12% своего рабочего времени на сбор данных. Это значит, что в неделю на решение данной задачи уходит около 5 часов, а в год — до 11 рабочих дней. К счастью, благодаря использованию машинного обучения это время можно потратить с большей пользой.

Одной из крупнейших областей для применения машинного обучения на сегодняшний день стала компьютерная безопасность. В частности, инструменты машинного обучения используются для выявления угроз сетевой безопасности и, соответственно, угроз конфиденциальным данным, которые в этих сетях хранятся и передаются.

Машинное обучение позволяет обрабатывать большие объёмы данных, выявлять паттерны в массивах информации и использовать их, чтобы приходить к определённым выводам. Этот базовый процесс отлично подходит для изучения сетевого трафика и может помочь идентифицировать «нормальный» трафик (включая действия пользователей), чтобы отделить его от подозрительного и потенциально опасного трафика.

Как отметили специалисты Trend Micro в исследовании Ahead of the Curve: A Deeper Understanding of Network Threats Through Machine Learning («На шаг впереди: как машинное обучение может помочь лучше понять сетевые угрозы»), на этом уровне классификации сетевого трафика применяется модель машинного обучения с учителем. Система машинного обучения в данном случае способна самостоятельно обрабатывать информацию и приходить к определённым выводам, но пользователи «тренируют» её и помогают лучше понять, как идентифицировать поступающую информацию. Для этой модели обучения очень полезны уже упомянутые выше промаркированные людьми массивы данных, так как они повышают точность выводов и предположений системы.

Хотя описанная выше модель машинного обучения с учителем позволяет идентифицировать потенциальные угрозы при помощи анализа данных трафика, заранее помеченных человеком, в реальных условиях эти данные передаются без всякой маркировки. Соответственно, этот метод требует значительных затрат времени и усилий от людей, чтобы сохранять свою эффективность.

Поэтому для выявления угроз также может использоваться модель машинного обучения без учителя. В этом случае немаркированные данные передаются платформе машинного обучения, которая затем анализирует и классифицирует их при помощи методов кластеризации данных. Преимущество этой модели машинного обучения в том, что она не требует участия людей, ведь обрабатываемые данные не нужно предварительно маркировать. Помимо этого, результаты, полученные после обработки данных сетевого трафика, можно использовать в режиме реального времени для выявления угроз нулевого дня и других новых методов атак.

Исследователи Trend Micro — Джой Авелино (Joy Avelino), Джессика Балаки (Jessica Balaqui) и Карми Лорен Мора (Carmi Loren Mora) использовали модели машинного обучения с учителем и без учителя, чтобы показать, как эти инструменты могут помочь в выявлении угроз в сетевом трафике. При помощи обработки больших объёмов немаркированного сетевого трафика они хотели выявить основные характеристики актуального на сегодняшний день вредоносного ПО и найти связи между ними.

Результаты этого исследования, описанные Авелино, Балаки и Мора в своей работе, оказались достаточно интересными. Благодаря применению технологий машинного обучения и специальных алгоритмов кластеризации данных, в том числе основанных на плотности алгоритмов DBSCAN и HDBSCAN, исследователи смогли не только отделить «нормальный» сетевой трафик от вредоносных данных, но и идентифицировать вредоносное ПО, проанализировав его характеристики.

«Модель с применением кластеризации помогла найти схожие элементы в сетевом трафике, что позволило объединить их в группы, — пишут Авелино, Балаки и Мора. — Используя множество характеристик, отмеченных в каждом типе вредоносного ПО — эта модель смогла определить, какие из них относятся к общим и характерны для всех аналогичных образцов».

Программа, которая использовала машинное обучение, смогла выявить в немаркированном потоке сетевого трафика известные в Сети угрозы, включая эксплойты Rig, Flashpack, Neutrino, Blacole и Angler. Также она самостоятельно подобрала цветовую кодировку, чтобы выделить и отметить их индивидуальные особенности. Таким образом, можно не только выявлять сетевые угрозы, но и обнаруживать в них схожие характеристики для последующего сравнения и анализа.

«Машинное обучение играет очень важную роль в процессе кластеризации сетевых угроз, — отметили Авелино, Балаки и Мора. — С его помощью мы намного быстрее обрабатываем и классифицируем данные и получаем нужные выводы».