Данные постоянно видоизменяются и чтобы предоставлять своим организациям важные инсайты, специалисты по данным должны работать с актуальными источниками, а не строить свои выводы, оперируя «стерильными» устаревшими моделями данных, пишет на портале Information Age генеральный директор и соучредитель поставщика ИИ-решений для периферийных вычислений LGN Дэн Уорнер.

В течение некоторого времени должность специалиста по данным была одной из самых популярных в технологиях и тем более в бизнесе. Нетрудно понять почему: по мере того, как организации осознают кажущийся безграничным потенциал своих данных, они все лучше понимают, что им нужны люди, способные извлекать, анализировать и интерпретировать их большие объемы. Спрос на специалистов по данным велик, поэтому ощущается их нехватка, особенно руководителей. Однако, несмотря на их востребованность, насколько они эффективны и насколько они уверены в своих возможностях? Этот вопрос как никогда актуален, потому что большие объемы данных используются недостаточно эффективно. Может ли быть так, что компании хотят повысить эффективность анализа информации, но нанимают специалистов по данным, не зная, как лучше раскрыть их сильные стороны и ожидая от них чудес? Или же они следят не только за тем, чтобы у них были нужные специалисты, но и за тем, чтобы они получали нужные данные?

Мусор на входе, мусор на выходе

Многие думают, что работа специалиста по данным заключается в поиске нужных данных, но они ошибаются. В конечном счете, они могут работать только с тем, что им дают, точно так же, как продавец не может добиться успешных продаж плохого продукта или гонщик Формулы-1 выиграть гонку на болиде, который не блещет характеристиками. Что же такое правильные данные? Очевидно, что это зависит от конкретного предприятия, но, по сути, существует ряд принципов, которым хорошие данные должны отвечать независимо от организационных потребностей.

Во-первых, они должны быть актуальными — это означает, что они должны отражать реальную ситуацию, какой она является в данный момент. Все меняется так быстро, что многие данные быстро становятся неактуальными. Чем больше они застаиваются, тем меньше их ценность. Поэтому, если специалист по данным работает с устаревшими данными, в то время как существует более свежая информация, его инсайты будут менее действенными применительно к тем условиям, в которых работает компания.

Во-вторых, это должны быть живые данные, то есть данные из реального мира, не учебные и не выдуманные. Почему? Потому что реальный мир беспорядочен, в нем возникают аномалии, о которых никто и не подозревал и которые специалисты по данным не смогут обработать, если их модели построены на стерильных учебных данных и не воспринимают неструктурированную информацию.

Иначе говоря, если организация снабжает своих специалистов и их модели устаревшими, офлайновыми данными, то лучшее, на что она может рассчитывать, — это неактуальный, ограниченный инсайт.

Edge — новый рубеж для специалистов по даннм

Компаниям необходимо найти способ постоянно снабжать своих специалистов по данным живыми, эволюционными данными, поступающими в реальном времени и из реального мира. Как это сделать? С помощью периферийных вычислений. Они не нуждаются в представлении — за последние несколько лет Интернет вещей показал бурный рост, что связано с увеличением количества устройств и обработкой все большего объема данных на периферии сетей. Датчики устанавливаются на все, начиная с ветряных турбин, реакторов, тракторов и заканчивая холодильниками и уличными фонарями, и они постоянно собирают данные. Это реальные, живые, беспорядочные данные, и это именно то, над чем должны работать специалисты по данным.

Предприятиям необходимо расширять возможности своих специалистов, предоставляя им данные для обучения и метрики производительности с периферии, чтобы они могли использовать их для создания моделей ИИ, которые, в свою очередь, развертываются на периферийных устройствах. Такие реальные среды дадут им важную информацию о том, как их модели справляются с аномалиями и вариациями, которые невозможно воссоздать в лабораториях или тестовых средах. Модели могут показывать плохие результаты, по крайней мере, на начальном этапе — и это хорошо, потому что у специалистов по данным будет повод «покопаться» в них, чтобы понять, почему полученный ими результат отличается от прогнозируемого.

Тем не менее, к данным необходим постоянный доступ независимо от качества работы модели, чтобы очищать их, аннотировать и в конечном итоге возвращать в нее для обучения. Это цикл обратной связи, который должен постоянно работать, чтобы системы могли совершенствоваться и адаптироваться. Однако извлечение данных должно быть интеллектуальным — ни одна система не может управлять всеми данными, которые собирают датчики, поэтому очень важно иметь способ определения и получения наиболее важных из них с периферии.

Кроме того, специалисты по данным должны иметь возможность повторного развертывания датчиков и машин для изучения, переосмысления и анализа источников данных, сбивающих с толку модели ИИ. Каким бы способом они не собирались, каким бы автоматизированным ни был процесс, в какой-то момент он пересекается с человеческим мышлением с присущими ему предположениями и допущениями. Процесс сбора устанавливается с оглядкой на цели, поставленные в конкретный момент времени, но они могут больше не подходить для сбора необходимых данных. Влияние специалистов по данным крайне важно именно на этапе, когда принимается решение о том, какие данные нужно собирать, чтобы не потерять в эффективности благодаря работе над наиболее актуальной информацией.

Новая парадигма активного обучения

В конечном счете, все это свидетельствует о переходе от старой парадигмы сбора больших наборов учебных данных, сегментирования, обучения модели и наблюдения за ее поведением, к новой парадигме — парадигме активного обучения, когда модели ИИ учатся разбирать ситуации, характерные для реального мира, и специалисты по данным получают возможность доказать свою эффективность. При этом они будут лучше оснащены для сбора аналитических данных и получения важных инсайтов, которые дадут их организациям реальные конкурентные преимущества на все более переполненных рынках, управляемых данными.