Развитие машинного зрения на основе искусственного интеллекта приведет к повышению эффективности управления данными. Пламен Минев, технический директор по ИИ и облачным вычислениям компании Quantum, рассказывает на портале Information Age, какие необходимы изменения в сфере управления данными.

Машинное зрение на основе ИИ становится значительно более эффективным, новые приложения разрабатываются быстрыми темпами в самых разных отраслях. Этот всплеск популярности является одной из основных причин глобального бума сбора данных, объем которого, как ожидается, достигнет 163 зБ в 2025 г.

Технология набирает обороты в самых разных областях, включая здравоохранение, автономные транспортные средства, производство, сельское хозяйство и безопасность. Например:

  • в здравоохранении машинное зрение используется для быстрого анализа тысяч рентгеновских снимков, томограмм и других медицинских изображений, а также для спасения жизней, определяя очередность лечения пациентов в отделениях скорой помощи;
  • в автомобильной промышленности системы машинного зрения на базе ИИ позволяют автономным транспортным средствам распознавать препятствия и безопасно перемещаться по дорогам;
  • в производстве машинное зрение играет важную роль в автоматическом обнаружении дефектов, а в быстро развивающейся области цифрового сельского хозяйства используется для ограничения или даже исключения использования пестицидов при устойчивом росте производства.

Каковы последствия для управления данными от прогресса машинного зрения на основе ИИ? В настоящее время большинство предприятий сталкиваются с противоречивыми требованиями к управлению данными. Хотя большинство данных генерируется на периферии, инфраструктура вычислений и хранения централизована в нескольких крупных дата-центрах или в публичном облаке. Данные необходимо перемещать и хранить, что приводит к значительным задержкам и расходам.

Борьба с задержками

Большая часть данных, собранных на периферии, сегодня перемещается для обработки в центр, где они используются для построения моделей ИИ. Но, по оценкам Gartner, уже к 2025 г. 75% корпоративных данных будет создаваться и обрабатываться за пределами обычного дата-центра или облака.

Процесс обучения алгоритмов машинного обучения значительно затруднен для компаний, собирающих и централизующих петабайты неструктурированных данных — будь то видео, изображения или данные датчиков. Конвейер разработки ИИ и отладка производственных моделей тормозят в результате такого централизованного метода обработки данных. В промышленных условиях это может приводить к тому, что дефекты продукции окажутся не выявлены, что приведет к значительным финансовым потерям или даже поставит под угрозу жизни людей.

В последнее время распределенные, децентрализованные архитектуры стали предпочтительным выбором для предприятий, в результате чего бóльшая часть данных хранится и обрабатывается на периферии. Это позволяет преодолеть проблемы задержки и решить вопросы, связанные со скоростью обработки данных. Развертывание периферийной аналитики и распределенных технологий машинного обучения приносит заметные преимущества, одновременно устраняя недостатки централизованных систем, связанные с безопасностью и конфиденциальностью.

Возьмем, к примеру, крупномасштабную сеть видеонаблюдения, которая непрерывно записывает видео. Эффективное обучение МО-модели различать определенные предметы требует, чтобы модель оценивала кадры, в которых замечено что-то новое, а не занималась многочасовой съемкой пустого здания или улицы. Предприятия могут сэкономить время, пропускную способность и деньги, предварительно анализируя данные на периферии и отправляя в центр только самые важные.

Хотя распределенные системы имеют много преимуществ, у них также есть много недостатков. Выбор и развертывание подходящей инфраструктуры хранения данных и вычислений на периферии, а также централизованного управления оказывают существенное влияние на общую эффективность системы и стоимость владения.

Преимущества многоуровневого хранения данных

Многие предприятия, хранящие огромные объемы неструктурированных данных, часто используют сетевые устройства хранения или общедоступные облачные хранилища. Однако использование многоуровневой архитектуры хранения данных может помочь сократить расходы.

В многоуровневой системе контент размещается на быстром хранилище в активный период, когда данные обрабатываются и анализируются, а резервная копия хранится и архивируется на более дешевом хранилище — например, на ленте или в объектном хранилище. Во многих отраслях, включая автономные транспортные средства, большинство собираемых данных необходимо хранить неограниченное время, но они используются крайне редко и могут храниться на самом дешевом уровне.

Многие фотографии и видео, собранные для обучения моделей ИИ, должны храниться неограниченное время для нескольких целей. В сложных системах помощи водителю и в беспилотных автомобилях ИИ выносит суждения на основе данных в реальном времени. Однако организации должны иметь возможность вернуться назад и проанализировать произошедшее, если проблема возникнет спустя месяцы или годы. Хотя такое хранение данных необходимо для обеспечения безопасности, оно имеет высокую цену — согласно Gartner, порядка 3500 долл. за терабайт в год, если быть точным. Легко представить, как могут подскочить цены, если осознать, что средний тестовый автономный автомобиль оперирует 2 Гб данных каждый час.

На чем следует сосредоточиться?

На рынке постоянно появляются новые достижения в области решений для хранения неструктурированных данных и периферийной аналитики. Предприятиям следует сосредоточиться на создании модульных сквозных систем управления данными, которые позволят им менять отдельные части на более современные технологии по мере их появления, чтобы воспользоваться преимуществами этих усовершенствований.

Даже при наличии самых совершенных решений у компаний в различных отраслях будут проблемы с транспортировкой, обработкой и хранением огромных объемов данных, записанных для машинного зрения. Но эти данные открывают новые возможности. В будущем фотографии и видео могут быть использованы для создания новых сценариев использования, в результате чего сохраненные данные станут новым источником доходов, а не издержек для предприятий. Многие организации смогут использовать текущие сохраненные данные для создания новых продуктов, когда станут доступны более продвинутые возможности анализа.

Какая еще может быть мотивация для того, чтобы сделать приоритетом обработку и хранение данных, которые являются «умными» и эффективными?