Эксперты в области данных и аналитики делятся с порталом ZDNet своим мнением по поводу ожидаемых в новом году событий на рынке. Они коснулись таких тем, как большие данные, искусственный интеллект (ИИ), машинное обучение (МО), облако, нехватка квалифицированных кадров и многие другие.

Hadoop и большие данные: живее всех живых

Был ли бы полноценным обзор без нападок на Hadoop и большие данные, хотя все понимают, что слухи о смерти этой комбинации технологий сильно преувеличены? «О смерти Hadoop ходит много разговоров, но в его экосистеме есть восходящие звезды. Такие фреймворки, как Spark и Presto, научились извлекать из данных большой объем ценной информации, поэтому их приняли в более широкую вычислительную экосистему. HDFS [распределенная файловая система Hadoop] умрет, но как вычислительная платформа Hadoop будет не просто жить, но и крепко стоять на ногах», — считает основатель и CTO Alluxio Хаоюань Ли.

CTO Yellowbrick Data Брайан Булковски придерживается схожей точки зрения: «Большие данные по-настоящему мертвы, но на горизонте маячат огромные озера данных». Руководитель департамента решений по управлению данными и обеспечения конфиденциальности данных SAS Тодд Райт напоминает, что «наличие большого количества данных, которые берут начало из множества источников, еще не означает обладание самой технологией больших данных. Ее реализация тесно связана с умением разрабатывать точные аналитические модели, которые и раскрывают скрытую в данных ценность».

ИИ проникает в самое сердце аналитики

Аналитические модели и большие данные — это сущность аналитики, но теперь к ним прибавился ИИ. Эта технология окружена мифами, которые не имеют ничего общего с действительностью. Если дистанцироваться от них, то можно убедиться, что в отрасли постепенно вырисовывается единая точка зрения по поводу будущего ИИ и МО. Предполагается, что они все теснее будут переплетаться с анализом данных, став узкоспециализированными направлениями в его рамках. В настоящее время отдельные команды приступили к объединению или более тесному сотрудничеству, помимо этого отрасль приступила к унификации инструментов для работы с ИИ.

Ли называет объединение ИИ и аналитики «новой основой для организации данных». «ИИ — это следующий шаг к структурированному анализу данных. То, что раньше было статистическими моделями, соединилось с компьютерами и стало ИИ и МО. Таким образом, командам, занимающимся данными, аналитикой и ИИ, необходимо сотрудничать, чтобы выудить ценную информацию из данных, которые все они используют», — сказал он. С его мнением согласен управляющий партнер Fractal Analytics Юджин Ройтбург: «ИИ и МО станут частью аналитики в более широком понимании и будут применяться в определенных областях. Хотя поначалу многие компании были озадачены этими двумя технологиями».

Некоторые эксперты высказались по поводу этики и беспристрастности ИИ. «Сообщество ИИ продолжит дискутировать по поводу проблем управления, конфиденциальности, безопасности и этики ИИ. Со временем наметятся пути решения многих из этих проблем», — говорит вице-президент Fractal Analytics Сурадж Амонкар.

Главный дизайнер этой же компании Парамесваран Венкатарам полагает: «для того, чтобы подвести основы для создания новых схем применения ИИ, в следующем году организации обратятся к „этике ИИ“. Растущая осведомленность людей в вопросах, касающихся тонкостей работы с технологией, в конечном итоге приведет к появлению этического ИИ». Наконец, CEO Eugenie.ai Судип Рой Чоудхари считает, что «мы увидим существенный рост исследовательских усилий, направленных на создание экосистемы ИИ, которая будет уделять внимание вопросам конфиденциальности, а также следить за тем, чтобы алгоритмы ИИ работали непредвзято».

Операционная деятельность

Эксперты считают, что в следующем году остро встанет вопрос создания производственных процессов, связанных с ИИ, и инструментов для повышения его эффективности. «МО достигло поворотного момента, когда компании всех размеров и на всех этапах переходят к практическому обучению моделей», — говорит Ли. Того же мнения придерживается Райт: «Управлении моделями — новый вектор рыночного развития. Организациям потребуется возможность легко регистрировать, изменять, отслеживать, оценивать, публиковать, управлять и представлять отчеты по аналитическим моделям».

Старший директор по контенту O’Reilly Media Келси Палланк считает, что его коллега несколько опережает события: «Начали появляться первые приложения, основанные на МО и ИИ, но это практически никак не отразится на методологии DevOps, которая по-прежнему будет играть ключевую роль в процессе разработки. Методология AIOps привлекает к себе немало внимания, но она еще слишком молода, ее преимущества для ИТ-операций носят теоретический характер, но не забывайте следить за ее развитием». CIO Sisu Data Питер Бейлис утверждает, что «данные больше не являются областью, которой занимаются лишь специалисты по данным. Аналитиками данных станет масса сотрудников, они появятся едва ли не в каждой организации, и мы увидим новые навыки и инструменты, ориентированные на конкретные варианты использования».

Неужели 2020-й снова станет «годом облака»?

Эрик Рааб, старший вице-президент по продукции и инжинирингу Information Builders и ее вице-президент по инженерно-техническому обеспечению Кабир Чудри, говорят: «В настоящее время есть проверенные решения, специально предназначенные для работы в облаке. В 2020 г. облако распахнет двери, чтобы усилить притяжение компаний, предлагая еще лучший пользовательский опыт, масштабируемость и гибкость облачных решений». CIO WANdisco Дэвид Ричардс считает, что «в 2020-м к облачному движению примкнут тысячи новых компаний, которые появились раньше самого облака. Все это приведет к новой фазе роста облачных сервисов. Процесс начнется с переноса данных, что станет основой для оптимальной среды для приложений ИИ и МО».

По словам руководителя направления практики Fractal Analytics в регионе APAC Сандипа Датта, многие компании сосредоточились на создании корпоративных озер данных в облаке, что приведет к созданию надежных и качественных наборов данных. В новом году эта тенденция усилится. Булковски полагает, что облачная революция выведет БД на новый уровень производительности: «Он будет достигнут за счет инновационных БД, которые получат аппаратное ускорение. Облако позволяет использовать эту инновацию. Вы будете работать с БД на все более специализированном оборудовании, но вы никогда об этом не узнаете».

Появятся ли мультигибридные облака?

Эксперты отметили, что предприятиям все сложнее управлять своими инфраструктурами в гибридных и мультиоблачных средах. «Лучшая в своем классе архитектура требует создания блоков в рамках технического стека, после чего предприятия выбирают нескольких поставщиков облачных услуг. Они все меньше внимания обращают на стоимость услуг провайдера или на непомерно высокие цены сетевого взаимодействия между облаками», — говорит Булковски. CIO Neo4j Эмиль Эйфрем полагает, что статус преуспевающего независимого поставщика ПО в 2020 г. предполагает овладение мультиоблачными и онпремис-средами: «Поставщики облачного ПО по модели Open Source понимают, как поддерживать облачные развертывания в соответствии с требованиями заказчика. AWS никогда не будет мультиоблаком, и этот сервис вряд ли будет поддерживать развертывания онпремис».

Предприятия продолжат инвестировать в гибридное облако и искать возможности, чтобы совместить частные и публичные облака для всех рабочих нагрузок, включая как унаследованные, так и нативные облачные. Заказчики будут искать поставщиков, которые могут предложить ПО для выполнения любой рабочей нагрузки в любом месте без бремени реорганизации или рефакторинга приложений«, — сказал CTO подразделения Cloud Platform Nutanix Раджив Мирани.

Kubernetes вступает в фазу активности

В этом году Open Source-технология оркестровки контейнеров Kubernetes охватила всю техническую индустрию. Стоит отметить, что определенных успехов она добились и в мире аналитики. «Она уже большая и становится все больше. Темпы внедрения этого передового решения для оркестровки контейнеров на предприятии будут только набирать обороты в 2020 г.», — говорит о Kubernetes Палланк. Ли предполагает, что в новом году Kubernetes будет все чаще интегрироваться с ИИ и аналитическими нагрузками.

Стивен Фабел, директор по продуктам Canonical, разделяет энтузиазм своих коллег, говоря, что «Kubernetes стал неотъемлемой частью современной облачной инфраструктуры и служит воротами для создания и экспериментов с новыми технологиями. Мы думаем, что эта тенденция сохранится и в 2020 г.». В то же время он призывает к предусмотрительности: «Мы видим, что некоторые компании задаются вопросом, действительно ли Kubernetes является правильным инструментом для их целей. Несмотря на то, что технология может приносить огромную пользу, в некоторых случаях ею сложно управлять без обладания специальными навыками». Палланк отметил, что в 2019 г. в LinkedIn было открыто 16 744 вакансий для специалистов, которые обладают навыками работы с Kubernetes.

Где взять столько аналитиков?

Как индустрии справиться с дефицитом аналитических навыков? Исполнительный вице-президент по международному образованию MicroStrategy Хью Оуэн считает, что проблему можно решить за счет обучения имеющихся у компаний технических специалистов. Он утверждает, что корпоративным организациям нужно будет сосредоточить свое внимание не только на найме лучших аналитиков, но и на образовании, переподготовке и повышении квалификации собственных сотрудников, что связано с возрастающей потребностью в принятии решений на основе данных в условиях дефицита специалистов по анализу данных.

Дефицит навыков проявляется везде, особенно в сфере ИИ. «Спрос на ИИ-решения будет и впредь опережать предложение. Чтобы адаптироваться к этому, предприятия будут задействовать специалистов без опыта работы с ИИ для разработки приложений. Со временем их будет появляться все больше и больше, что приведет к ее социализации», — уверен управляющий директор по операциям в регионе Европа/Восточная Америка Fractal Analytics Джон Ларокка. Отраслевой эксперт Маркус Борба из Borba Consulting отмечает, что «проникновение МО растет в геометрической прогрессии, поэтому не удивительно, что вместе с ним появляется потребность в разработке. Все это привело к тому, что рынок наполнили модели МО, которые можно применять без экспертных знаний и не прикладывая особых усилий».

CIO Rockset Венкат Венкатарамани видит еще более простое решение проблемы нехватки специалистов по данным: поставщикам и клиентам нужно приспособиться к уже распространенным наборам навыков, таким как хорошо всем известный SQL: «Мне кажется, что предприятия направят свои усилия для стандартизации всего стека управления данными вокруг SQL. Решения для управления данными, будь то потоковые платформы, операционные системы реального времени или автономная пакетная аналитика, — все это будет замыкаться на SQL в качестве стандартного интерфейса для разработчиков и специалистов по данным».

Управление данными — это важно

Важность данных год от года растет, а вместе с этим растет значение защиты, конфиденциальности и управления данными. Первые шаги в этом направлении уже предпринимаются. Райт отмечает, что «растущее количество законов о конфиденциальности/защите, принятых во всем мире, побудило организации разработать программы управления данными, которые включают конфиденциальность данных по умолчанию».

Баилис подчеркивает важность управления данными: «Управление данными возвращается на передний план. По мере расширения платформ для анализа и диагностики извлеченные из данных факты будут беспрепятственно распространяться в бизнес-среде. Это связано с тем, что инструменты управления данными помогут обеспечить конфиденциальность, правильное использование и целостность данных, улучшая их настолько, что сами данные снова уйдут на второй план».

Работа с данными будет поставлена на поток, считает главный специалист Alteryx по анализу данных и аналитике Алан Якобсон. «Хотя людям не нравится следовать правилам, они получают удовольствие от того, что их ставят в рамки, в которых они могут преуспевать и процветать. Хорошее управление все чаще будет рассматриваться в качестве средства достижения корпоративных целей с использованием эффективных и действенных передовых методов, которые позволяют задействовать сотрудников», — сказал он.

Данные в 2020 году

Hadoop и Big Data, ИИ, облако, Kubernetes, нехватка технических навыков и растущий акцент на управлении данными — основные тенденции, которые будут влиять на экосистему данных. Понимание связи между каждым из этих компонентов дает представление о том, с какой стороны в следующем году подбираться к данным и аналитике. Аналитика больших данных позволила сделать ИИ реальностью. Тем временем облако и Kubernetes упростили развертывание необходимой технологии. Полученный опыт работы с ней помог решить проблему нехватки навыков посредством повышения квалификации. Учитывая, что данные пронизывают любые технологии, нужно осознать важность управления ими. Предприятиям также важно найти точки соприкосновения между указанными выше технологиями передачи/обработки данных, что в немалой степени будет способствовать консолидации бизнеса.