«Лучшие в своем роде» или «все в одном»? Это распространенный компромисс при выборе технологических решений. Однако время от времени появляется возможность объединить эти два понятия в единый продукт, пишет на портале Datanami Сакет Саурабх, соучредитель и генеральный директором Nexla, занимающейся автоматизацией инженерии данных.

iPhone (или смартфон в общем случае) — классический пример. Пока iPhone не дебютировал в 2007 г. и не стал массовым в течение нескольких лет, люди обычно приобретали лучшие персональные устройства того времени, такие как телефоны, музыкальные плееры, КПК, камеры, GPS-навигаторы и многое другое. Фактически, в каждой из этих категорий был свой лидер: Motorola и Nokia в телефонах, Apple в музыкальных плеерах, Blackberry в устройствах электронной почты, Garmin в навигации, Nikon и Sony в фотоаппаратах и т. д. Невозможно было представить, что одно устройство сможет заменить их все.

Мы находимся на пороге аналогичной эволюции в экосистеме инструментов работы с данными. На протяжении десятилетий ETL, ELT, iPaas, потоковая передача, подготовка/преобразование данных, обеспечение качества данных, каталогизация и мониторинг были отдельными инструментами. До недавнего времени предпочтение отдавалось лучшим из лучших. Однако конвергенция в мощные инструменты «все в одном» уже началась.

Итак, давайте рассмотрим, когда и как решения «все в одном» начинают сменять лучшие в своем роде отдельные решения.

Компромисс между лучшими в своем роде и многофункциональными решениями

Компромисс здесь возникает из-за того, что инструменты «все в одном», как правило, не обладают достаточными специальными возможностями по сравнению с лучшими в своем роде решениями. Последние создаются для решения одной задачи. Это позволяет им целенаправленно развиваться, внедрять инновации и удовлетворять потребности пользователей в конкретной области. В большинстве случаев подход «все в одном» не позволяет достичь такого уровня фокусировки, что делает эти решения неспособными обслуживать все потребности пользователей настолько полно.

Однако недостаток лучших в своем роде решений проявляется при попытке объединить пять или шесть таких решений с комплексными системами корпоративного уровня. Это создает пробелы в интеграции между инструментами и требует обучения работе с различными интерфейсами, а также внедрения политики и управления инструментами. Поскольку каждая область обслуживается индивидуально, в целом отсутствует потенциал роста или планирование для будущих неудовлетворенных потребностей.

«Все в одном» как путь к успеху

Важно понимать, что подходы «все в одном» становятся не хуже и даже лучше, чем ориентация на лучшие в своем классе. Давайте проанализируем движущие факторы, вернувшись к примеру с iPhone.

  1. Новая технология или подход. iPhone был новым подходом к применению архитектуры компьютера общего назначения, упакованного в форм-фактор телефона с множеством встроенных периферийных устройств, включая дисплей, сенсорный ввод, аудио, сеть, сотовую связь и GPS. ПК-подобное аппаратное обеспечение поддерживалось ПК-подобной экосистемой ПО в виде ОС Unix общего назначения с SDK (комплект разработчика ПО) и App Store.
  2. Зрелость базовой технологии. Во многом успех iPhone и других смартфонов был обусловлен тем, что базовые технологии, включая сотовые модемы, камеры, аудиочипы, GPS, память, накопители и другие аспекты, достигли такой степени зрелости с точки зрения технологий и цепочки поставок, которая позволила производителям смартфонов полностью пропустить этапы их проектирования, разработки и производства.
  3. Сборка vs. строительство. Когда новый технологический подход объединяется с возможностью использования зрелых компонентов, становится возможным создание высококлассного продукта «все в одном». Поскольку навыки смещаются в сторону сборки и сшивания, а не создания каждой отдельной функции с нуля, инновации становятся быстрее и проще. Потребности пользователей также лучше понимаются для каждого отдельного приложения. Выигрыш для Apple был достигнут благодаря возможности создать гораздо лучший интеграционный клей. В данном случае iOS и App Store собрали правильный набор ингредиентов с точки зрения аппаратных компонентов и приложений.

Стратегия «все в одном» оправдывает себя, если продукт на 90% не уступает (а иногда даже превосходит) любому лучшему в своем классе решению. Добавьте к этому гладкий интегрированный опыт, простоту использования, согласованный пользовательский интерфейс, унифицированное управление и управление политиками, и вы получите настоящего победителя.

Более близким к области корпоративного ПО примером является Amazon Web Services, которая представляет собой классический пример инфраструктуры и корпоративной технологии «все в одном», объединяющей вычислительные системы, сети, системы хранения данных, базы данных и другие подобные инфраструктурные строительные блоки под единым зонтиком.

Стек данных «все в одном»

Что делает возможным создание стека данных «все в одном»?

  1. Новые технологии и подходы. Траектория развития продукта часто определяется первоначальным целевым пользователем, сценариями использования и результирующей архитектурой. Хотя за последние 30 лет инструменты для работы с данными прошли через множество итераций, нынешний подход некоторых компаний ориентирован на новый тип пользователя — того, кто понимает данные и знает, что с ними делать, но при этом является полутехническим специалистом в области систем данных.

    Это привело к:
    • автоматической генерации коннекторов вместо написания кода для каждого из них;
    • логическим продуктам данных, которые служат соединительным клеем, подобно iOS в примере с iPhone;
    • множественным интерфейсам к базовым сервисам продукта через пользовательский интерфейс no-code, SDK и CLI, что позволяет продукту обслуживать множество заинтересованных сторон.
  2. Зрелость базовых технологий: пакетная обработка, передача и планирование. За последнее десятилетие сама обработка данных достигла зрелости в виде высококачественных систем пакетной и потоковой обработки, возглавляемых Spark и Kafka. В сочетании со зрелостью облачной инфраструктуры это позволило создать такие компоненты и возможности, как унифицированная пакетная и потоковая обработка данных, а также мульти- и гибридные облачные архитектуры, ставшие возможными благодаря зрелости архитектур на основе контейнеров.
  3. Сборка vs. строительство. Если объединить пункты (1) и (2) правильным соединительным клеем, можно создать очень привлекательный продукт «все в одном». Логические продукты данных, которые представляют данные и метаданные в виде совместно используемой единицы с множеством гибких моделей потребления и интерфейсов, оказались очень эффективным клеем для различных пользователей и приложений. Некоторые известные примеры включают следующие возможности:
    • автоматически генерировать продукт данных из коннекторов для чтения;
    • преобразовывать, комбинировать, обогащать и проверять продукты данных для создания новых производных продуктов данных;
    • делиться продуктами данных с другими пользователями, которые в дальнейшем могут готовить свои собственные производные продукты данных, делиться с последующими пользователями или даже внешними потребителями данных;
    • подключать продукты данных к хранилищу, потоку, API, электронной таблице, электронной почте для любой модели потребления;
    • наполнять каталог метаданными из продуктов данных.

Я своими глазами видел, как некоторые из крупнейших предприятий смогли воспользоваться преимуществами такого подхода к продуктам «все в одном».

Мы все еще находимся на ранней стадии эволюции нового стека данных, но с точки зрения пользователя убедительное решение «все в одном» означает, что пользователи могут переключить свою энергию с работы с несколькими инструментами на размышления о вышележащем уровне. Данные — это только средство, но никогда не цель предприятия. По мере стабилизации стека данных и упрощения его использования и управления, команды смогут направить больше энергии на использование данных для аналитики, искусственного интеллекта, BI, операций, а также для удовлетворения потребностей своих клиентов и приложений, используемых для их обслуживания.

Строительные блоки инструментов для работы с данными

Как будет развиваться стек «все в одном», еще предстоит увидеть, но ниже для справки приведены общие строительные блоки большинства инструментов для работы с данными. Поняв эти компоненты, мы сможем увидеть, как они будут сочетаться друг с другом для реализации концепции «все в одном».

  1. Коннекторы служат для чтения и записи данных в системах данных.
  2. Обработка данных — это применение вычислений к данным. Это приводит к появлению таких возможностей, как преобразование данных, подготовка данных и проверка данных.
  3. Транспорт данных — это перемещение данных, будь то пакетное, потоковое или в реальном времени.
  4. Метаданные — это данные о данных, такие как схема, расположение данных, глоссарий, документация, характеристики данных.
  5. Контроль доступа должен позволять каждому подразделению иметь контроль над разрешениями на уровне пользователей и групп.

Давайте теперь переведем эти строительные блоки в хорошо понятные нам инструменты работы с данными.

ELT: коннекторы чтения для SaaS + пакетный транспорт + отображение метаданных на таблицы + коннекторы записи в хранилище + обработка данных с помощью функций SQL.

iPaaS: коннекторы чтения для API + потоковый транспорт + отображение метаданных на API + коннекторы записи для API.

ETL: коннекторы чтения к БД и файлам + пакетный транспорт + обработка данных с помощью функций преобразования + коннекторы записи для БД и озер данных.

Качество данных: обработка данных с функциями проверки + потоковая передача метаданных и ошибок + коннекторы записи для уведомлений и оповещений.

Каталог данных и управление: коннекторы чтения для метаданных + поиск и организация метаданных + контроль доступа.

Подготовка данных: обработка данных с помощью функций преобразования и SQL + пакетная и потоковая обработка.

Будущее с подходом «все в одном»

Решения «все в одном» встречаются довольно редко, поскольку их трудно создать. Однако, когда они действительно работают, они прекрасны и в конечном итоге доминируют в своей экосистеме. Например, AWS применяет подход «все в одном» к инфраструктуре дата-центров.

Добившиеся успеха в стратегии «все в одном» со временем начинают доминировать на рынке, используя два подхода. Во-первых, они расширяют сферу применения своего продукта за пределы областей применения первоначального набора субпродуктов. Примером в мире смартфонов является цифровой кошелек. Во-вторых, они создают вертикализованную технологию, чтобы выйти за рамки того, чего достигли лучшие в своем сегменте решения, и таким образом идут дальше, чем просто сборка технологии. Неудивительно, что Apple теперь сама производит чипы для своих устройств. Как все это проявится в стеке данных, еще предстоит увидеть, но одно можно сказать наверняка: в ближайшие несколько лет пользователей данных ждет множество инноваций.