Количество публикаций, посвященных большим данным (Big Data) и машинному обучению (machine learning), увеличивается каждый день (а то и вовсе ежечасно). И хотелось бы взглянуть на эту проблематику с точки зрения инженера-разработчика. Как известно, есть три этапа становления любой научной теории: «Это невозможно. Это еще не доказано. Это общеизвестно». Попробуем посмотреть на машинное обучение в этом контексте.

Введение

Умные машины всегда будоражили наше воображение (особенно разного рода утопичными и апокалиптическими картинками). Что же произошло в наши дни? В машинном обучении можно выделить три основные составляющие: вычислительный ресурс, математические методы и данные, на которых алгоритмы обучаются. Сегодня вычислительные мощности, тем более где-нибудь в облаке AWS, более чем доступны, данных человечество накопило тоже довольно много, нужная математика тоже наработана. Более того, социальные сети ежесекундно генерируют массу информации (по большей части, информация это «мусорная», ну не станет моя жизнь лучше, если соседка по этажу выставит на всеобщее обозрение фото своей кошки). Но факт есть факт. Один только Facebook за весьма не долгое время своего существования создал петабайтов больше, чем человечество накопило знаний за свою историю. Поэтому разговоры об алгоритмах машинного обучения, способных обработать и, в конечном итоге, монетизировать все эти данные, слышны со всех сторон. Вопрос в том, что в этой дискуссии правда, а что (пока еще?) научная фантастика.

Это невозможно

Революция произошла в марте 2016-го. Многоуровневая нейросеть Google DeepMind AlphaGo, разработанная британским стартапом DeepMind и купленная в 2014 г. компанией Google, используя принципы глубинного обучения, обыграла 18-кратного чемпиона мира по китайским шахматам (игра Го) корейца Ли Седоль (Lee Sedol) со счетом 4:1. Про это событие было много новостей разной степени детализации, но перед ним был еще один весьма символичный поединок, в котором DeepMind AlphaGo обыграла многократного чемпиона Европы китайца (с 2013-го француза) Фань Хуэй (Fan Hui) со счетом 0:5. Так вот, в послематчевом интервью Фань Хуэй заявил, что некоторые ходы программы были для него крайне неожиданными, а иногда в течение матча у него складывалось впечатление, что против него играет кто-то с хорошо развитой интуицией. Становится немного жутко. Это же программа всего-навсего. Или уже нет? Вторжение нейросети в область такого метафизического понятия, как интуиция, — это уже игра на нашей территории, машины до сих пор на нее не заходили. Небольшая справка: часто это эпохальное событие ставят в один ряд с победой IBM DeepBlue в шахматном матче над Г. Каспаровым в 1997 г. Не совсем корректное сравнение. Шахматы — игра, построенная на строгой логике, в ней нужные варианты/стратегии можно проанализировать перебором. В случае с Го такой подход не работает ввиду того, что число возможных конфигураций игровой доски превышает количество атомов во Вселенной. На перебор здесь просто нет времени. Игра Го основана на использовании интуиции, и это ее принципиальное отличие от шахмат.

Особенностью DeepMind AlphaGo также является ее неспециализированность. Например, возвращаясь к примеру IBM DeepBlue, надо отметить, что это была узкоспециализированная система, заточенная исключительно для игры в шахматы. Больше она ничего делать не умела. DeepMind AlphaGo может использоваться для других целей, и обучалась она, наблюдая за игрой других игроков. Это напоминает работу человеческого мозга с его многогранными когнитивными способностями в разных областях знания.

Это еще не доказано

Аналитическое агентство Gartner ставит машинное обучение на пик инфляционных ожиданий в своей кривой зрелости технологий (Gartner hype cycle). Судя по всему, так оно и есть в настоящий момент. Многие моменты еще не понятны и не доказаны, но правда в том, что сегодня мы имеем общедоступный инструмент и каждый может поиграть с уже созданными или разработать свою собственную модель нейросети. Разработчики делают ставку на глубинное обучение. Например, разработчик (Databricks) хорошо известного в мире больших данных фреймворка для распределенной обработки (Apache Spark) в этом году добавил поддержку фреймворка машинного обучения Google TensorFlow, разработанного командой Google Brain. Эта команда получила широкую известность своим экспериментом, когда искусственный интеллект (ИИ) из 16 000 машин в 2012 г. после просмотра 10 млн. картинок, взятых с YouTube, научился распознавать кошек без вмешательства человека в процесс обучения (так называемое unsupervised learning). В октябре 2016-го Google Brain анонсировала другой успешный эксперимент, результаты которого серьезно удивили разработчиков и превзошли их ожидания. Два ИИ «придумали» алгоритм шифрования для обмена сообщений между собой, т. е. машины оказались способны скрыть свою коммуникацию. Третий ИИ, также принимавший участие в эксперименте, не смог понять, о чем у первых двух шел «разговор». Интересно, что они решили там скрыть сегодня и что захотят скрыть завтра. Google открыла доступ к TensorFlow с целью расширить круг исследователей, работающих с нейросетями и глубинным/машинным обучением.

Прошедший в этом году в Сан-Франциско очередной саммит по Data Science и Apache Spark показал явный интерес к глубинному обучения. К слову, все основные выступления (keynote) таких гигантов, как Google, IBM, Microsoft, Intel, Baidu, Amazon и т. д., отдельно выделяли искусственный интеллект и машинное обучение в качестве приоритетных проектов.

Все неизвестное пугает. Нейросети выдают удивительные результаты (например, вышеприведенные примеры Google Brain) с высокой вероятностью, но совершенно непонятно, каким образом они сделали некоторые выводы. Экспертов в данной области гораздо меньше, чем проблем, и сегодняшним студентам и аспирантам предстоит еще попытаться объяснить, почему «умный» холодильник в один прекрасный день принципиально откажется заказывать по Интернету газировку одного известного бренда из-за того, что он чему-то там научился.

Это общеизвестно

В Интернете опубликовано открытое письмо, подписанное ведущими специалистами, которые работают в области ИИ. Среди них Стивен Хокинг (астрофизик), Илон Маск (Tesla, SpaceX), Стив Возняк (сооснователь Apple), Демис Хасабис (разработчик и сооснователь Google DeepMind) и др. Список известных имен, надо сказать, впечатляет. Это письмо констатирует серьезный прогресс в когнитивных технологиях и, в частности, в искусственном интеллекте. Основная идея этого обращения состоит в срочной необходимости разработки общепринятых правил, регламентирующих деятельность и моральные нормы ИИ. Последнее особенно актуально в связи с активной разработкой крупнейшими ИТ-компаниями и автопроизводителями беспилотных автомобилей, которые уже через 5-10 лет должны стать общедоступным явлением (по крайней мере, в США). Чья жизнь будет иметь более высокий приоритет в случае аварии? Пешехода или пассажира? Просто вычислять вероятность, у кого больше шансов выжить? А если это ребенок? Авторы напоминают, что развитие ИИ может привести к масштабному росту безработицы. Некоторые профессии просто исчезнут (среди них часто называют водителей, бухгалтеров, юристов). Также хотелось бы отметить постоянный интерес к этой проблематике со стороны администрации уходящего президента Обамы. Как известно, Big Data сыграла не последнюю роль в его предвыборной компании 2012 г. и он, как никто иной, прочувствовал на себе эффективность этих технологий. Известно, например, что предвыборный штаб Обамы обладал огромной базой данных, содержавшей информацию о потенциальных избирателях и их предпочтениях. На основе анализа этих данных с помощью статистических методов создавалась персонализированная реклама (по сути, онлайн-ретаргетирование в реальном, а не в виртуальном мире), ориентированная на определенную группу избирателей, соответствующую специфичным критериям (например, женская/мужская аудитория, цвет кожи, религиозные взгляды, экологическая обстановка в округе и т. д.). Затем рекламные щиты устанавливались в соответствующих округах/районах, а волонтеры знали, на чем сделать акцент в SMS-сообщениях и выступлениях перед избирателями.

Это было только начало. 12 октября 2016 г. на сайте Белого дома был опубликован «Национальный стратегический научно-исследовательский план по разработке ИИ». В нем идет речь о необходимости долгосрочных инвестиций в исследование ИИ, обсуждаются вопросы человеко-машинного взаимодействия, правовые, социальные и морально-этические проблемы, которые возникнут при массовом внедрении искусственного интеллекта. Документ перекликается с основными положениями упомянутого выше открытого письма, представлен на 48 страницах и является весьма занимательной систематизацией современного состояния ИИ, включая анализ количества патентов, полученных странами-лидерами в области глубинного обучения (России, к большому сожалению, там нет).

О мифах и не только

Машинное обучение (и особенно обучение нейросетей) неразрывно связано с Big Data, поэтому эти вопросы часто рассматриваются вместе. Один из основных мифов в области машинного обучения, на мой взгляд, состоит в том, что Big Data повсюду вокруг нас и любая компания (пусть даже имеющая данные о своей деятельности за десятилетия) просто теряет время и деньги, если не бросится прямо сейчас искать и использовать у себя Big Data. Но и это тоже не совсем миф. Это скорее полумиф. На самом деле не у всех есть эти самые Big Data, и иногда приходится их генерить специально. Лидерами в Big Data, безусловно, являются поисковики, онлайн-магазины, финтех-компании и интернет-фирмы, занимающиеся ретаргетированием онлайн-рекламы. Однако не за горами тот день всеобщей цифровой эры, когда действительно придется учитывать много важной информации (в отличие от мусорной информации социальных сетей), которая будет поступать от различных сенсоров. Следует отметить, что горизонт прогноза наступления этой реальности зависит от субъективности (предвзятости/материальной заинтересованности) того или иного эксперта.

Как было показано выше, машинное обучение способно выявить скрытые (иногда мистические) закономерности. Далеко не всегда выявленная корреляция объясняет исходную причину того или иного явления, поэтому приходится сохранять долю скепсиса, чтобы не впасть в эйфорию от полученных результатов без соответствующего анализа. Реальностью является успешное применение ИИ в финансах, маркетинге, сельском хозяйстве и медицине (особенно в онкологии). Хорошим примером здесь может служить IBM Watson и его применение для онкодиагностики и назначения лечения в одном из ведущих мировых онкологических центров (Memorial Sloan Kettering Cancer Center, Нью-Йорк, США). Проект открывался для использования ИИ в лечении рака груди и рака легких, но затем был расширен и на другие формы рака (простаты, печени и т. д.).

Заключение

Проникновение ИИ в такие слабо- или вообще неформализуемые области, как интуиция, позволяет говорить о серьезном прогрессе когнитивных технологий. Надо сказать, что при написании этой статьи найти мифы, связанные с развитием ИИ, оказалось гораздо сложнее, чем реальные промышленные бизнес-кейсы, когда машины способны самообучаться. Значит, все-таки это уже реальность? Матрица и Скайнет перестают быть фантастикой? Кто знает, но жутко интересно.

Автор статьи — старший Java-разработчик центра исследований и разработки команды предиктивной аналитики в Anaplan.

Версия для печати