Периферийная ткань данных (Edge Data Fabric, EDF) выступает в качестве как инфраструктуры, так и транслятора для данных, перемещающихся по различным платформам, развернутым на периферии, объясняет на портале eWeek Льюис Карр, старший директор по маркетингу продуктов Actian.

Чтобы получать более глубокие и своевременные инсайты, предприятия вынуждены обрабатывать все большие объемы данных. Ожидается, что эта тенденция сохранится. Согласно прогнозам IDC, к 2025 году глобальная сфера данных увеличится примерно в три раза. Но эта тенденция не нова. В конце концов, термин «большие данные» появился довольно давно. Разница лишь в том, откуда они будут поступать и насколько текучими будут. Другими словами, стимулировать создание данных будут мобильные устройства и IoT — т. е. периферия. Далее, их обработка и анализ будут осуществляться в различных точках — на устройстве, шлюзах и в облаке. Возможно, более подходящим термином вместо «больших данных» будет термин «текучие распределенные данные» (Fluid Distributed Data)?

Нужно понимать, что больший объем данных в конечном счете означает больше возможностей для бизнеса, особенно с учетом того, что эти новые данные генерируются в местах действия людей и машин. Чтобы в полной мере воспользоваться их растущими объемами, предприятиям необходим способ более эффективного управления ими на всех платформах, от периферии до облака и обратно. Им необходимо обрабатывать, хранить и оптимизировать различные типы данных, поступающих из разных источников с разным уровнем очистки и достоверности.

Предприятиям нужно подключать данные к внутренним приложениям и применять логику бизнес-процессов, все чаще используя модели искусственного интеллекта и машинного обучения. Это большая задача. Одним из решений, которые сейчас ищут предприятия, является внедрение ткани данных. А поскольку объемы информации на периферии продолжают расти, это решение будет развиваться и дальше, превращаясь в то, что чаще всего называют EDF.

Что такое ткань данных

Ткань данных — это объединенный слой данных, распределенных по различным областям, к которым можно получить легкий и прозрачный доступ в режиме реального времени при помощи единого управления. Она позволяет операторам перемещать их и получать к ним доступ через различные платформы развертывания, процессы обработки данных, географические расположения и структурные подходы. По сути, она выступает в качестве инфраструктуры и транслятора для данных, перемещаемых на различные платформы, включая дата-центры, публичные и частные облака и множество типов шлюзов и устройств, работающих на периферии.

Как ткань данных сочетается с периферийными вычислениями

Периферийные вычисления создают уникальный набор задач для данных, генерируемых и обрабатываемых вне ядра сети. Сами устройства, работающие на периферии, становятся все более сложными. Например, такие интеллектуальные устройства, как сетевые PLC-адаптеры, управляют соленоидами, которые, в свою очередь, контролируют технологические потоки на химическом заводе, датчики давления, определяющие вес, и активные RFID-метки, считывающими местоположение грузового контейнера.

Раньше бóльшая часть обработки данных происходила в ЦОДах, но сегодня она по большей части проходит в облаке. В обоих случаях она осуществляется с одной стороны шлюза.

Как уже говорилось, по своей природе облако текучее и ему чужда локальность, но, как и ЦОД, оно занимается обработкой данных, связанных с приложениями.

Предприятиям все равно, где находится облако, но ему важно, чтобы данные могли перемещаться между различными облаками и сохранялись в каждом из них для использования в различных операциях. Из-за этих сложностей организациям приходится определять, какие части обработки данных выполняются на том или ином уровне. Для каждого уровня есть свое приложение, а для каждого приложения — отдельные манипуляции. И в каждой манипуляции существует обработка данных и управление памятью.

Смысл ткани данных в том, чтобы справиться со всеми этими сложностями. Например, ее ключевым элементом в облаке может быть Spark, поскольку он быстро стал самым простым способом поддержки потоковой передачи данных между различными облачными платформами разных поставщиков.

Периферия быстро становится новым облаком, используя те же облачные технологии и стандарты в сочетании с новыми, специфическими для периферии сетями, такими как 5G и WLAN 6. И, как и в основном облаке, все более богатые, более интеллектуальные приложения работают на каждом устройстве, на шлюзах и в том, что раньше было эквивалентом дата-центра, работающего в шкафу на заводе, в самолете, на грузовом судне и т. д. Логично предположить, что на периферии вам понадобится ткань данных, аналогичная той, которая формируется в основном облаке.

Базовые элементы EDF

Чтобы справиться с растущим количеством требований к данным, предъявляемых устройствами на периферии, ткань данных должна выполнять несколько важных функций:

  • иметь доступ ко многим различным интерфейсам: http, mttp, радио- и производственным сетям;
  • работать в различных операционных средах; самое главное — совместимость с POSIX;
  • работать с ключевыми протоколами и API, включая самые современные REST API;
  • обеспечивать возможности подключения к базам данных JDBC/ODBC, что требуется для унаследованных приложений и быстрого «грязного» (небезопасного) соединения между базами данных;
  • обрабатывать потоковые данные за счет таких стандартов, как Spark и Kafka.

Переломный момент для EDF

Хотя истоки периферийных вычислений восходят к сетям доставки контента 1990-х, они только недавно достигли рыночной зрелости, чтобы работать с EDF. Ключевые факторы их развития изменились. Чтобы по-настоящему использовать весь их интеллект и возможности обработки, придется отказаться от менталитета клиент-сервер. Времена централизации данных прошли — большая их часть будет находится на периферии.

По мере роста на периферии интеллекта он начнет выполнять автоматизированные процедуры. Администраторам останется установить для них политики и дать указания о том, что должно быть сделано с помощью процедур обработки исключений (которые с течением времени будут повторяться), чтобы ничего не пришлось делать вручную или чтобы процесс не остановился. Для этого используется МО, связанное с политиками и процессами, а также с тем, как обрабатывать исключения. МО должен работать на периферии в безнадзорном режиме.

Почему бы не перенести все это в облако? Для этого потребуется большая пропускная способность. Как выяснилось, каждый раз, когда происходит такой переход, как от 2G к 3G, 4G, LTE и 5G, происходит сопутствующий новый всплеск пропускной способности, и с каждым разом вы можете делать в облаке все меньше и меньше. При этом объем данных постоянно опережает новую пропускную способность. Назовем это парадоксом пропускной способности.

Вторая причина, которая не позволяет переносить данные в облако — задержка. Даже если в него можно было бы перенести все данные, решения в ходе автоматизированного процесса должны приниматься в режиме реального времени. Принятие решения и отправка его обратно к месту действия создаст слишком большую задержку — даже на скорости 5G.

Третья причина: конфиденциальность и безопасность. Учитывая все риски, с которыми сталкиваются организации, им лучше всего создать собственный исторический базовый уровень, запускать его локально, со временем ограничиваясь только теми данными, которые нужны, и как можно быстрее избавляться от ненужной информации. Вот только зачем тогда вообще переносить данные в облаке, если это проще сделать локально?

Варианты применения EDF

EDF обеспечит поддержку открытых сообществ для создания прикладных функций в тех сетях и системах, которые ранее были закрытыми. Это может включать оснащение беспроводных сетей 5G периферийными вычислениями с множественным доступом (Multi-Access Edge Computing, MEC), чтобы открыть сеть для сторонних разработчиков и интеграторов для создания CDN. EDF также может открыть возможности для многоуровневой IoT-сети — с PLC-устройствами на одном уровне, машинным зрением на другом и робототехникой на третьем — для обмена данными между уровнями. Для того, чтобы сторонние поставщики могли разрабатывать и выпускать такие сети, необходимо наличие EDF.

Перемещение облачной ткани данных на периферию

Конечно, исторические данные с периферии должны будут поступать к разработчикам МО-алгоритмов для проектирования, настройки и корректировки смещения. Ключевые фрагменты данных с периферии, такие как финансовые транзакции, будут поступать в основное облако, но, опять же, относительно небольшие наборы данных, например, информация о запчастях или графики их установки, будут поступать из него на периферию. Это говорит о текучести данных и необходимости беспрепятственного соединения EDF с тканью данных основного облака. Учитывая, что такие стандарты, как MEC, переносят облачные технологии на периферию, прогнозы относительно достаточно простого переноса облачной ткани данных на периферию выглядят многообещающими.