От описательного анализа к построению предиктивных моделей для потоков данных и Интернета вещей — новый этап развития аналитических технологий.

Краткий обзор

Сделанный в конце 20-го века рывок в компьютерных технологиях анализа данных достиг своего пика.

Начавшиеся с разработки AT&T Bell Labs объектно-ориентированного языка программирования S+, технологии компьютерного анализа данных стремительно развивались и совершенствовались. Одна из главных целей создателей аналитического ПО на первом этапе заключалась в разработке максимально широкого аналитического и графического функционала, интеграции с базами данных, оптимизации вычислительных процедур и тщательное тестирование методов (benchmarking).

Описанные в книгах и учебниках и доступные единицам специализированные аналитические и статистические методы воплотились в компьютерные технологии, что было значительным успехом.

Аналитический функционал современного ПО включает тысячи тщательно тестированных аналитических процедур, постоянно пополняющихся усовершенствованными методами анализа. Перечисление методов займет несколько десятков страниц от описательных методов до углубленных методов анализа и построения предиктивных моделей, включая GLM-модели, нейронные сети, машинное обучение, деревья классификации и регрессии, методы опорных векторов и др.

Параллельно развивается мир информационных технологий как таковых, цифровая реальность вошла в жизнь, Интернет вещей, облачные решения стали нормой современного производства, оснащенного множеством датчиков, контроллеров. Сбор и хранение данных от различных источников стали надежными, недорогими и эффективными.

Как только мир становится цифровым, с необходимостью возникает потребность в развитой компьютерной аналитике, призванный анализировать мир, представленный числами.

Основной тренд компьютерной аналитики

Потоки данных и их анализ стали актуальными для любой сферы деятельности — бизнеса, экономики, промышленности, нефтедобывающей и газодобывающей отраслей, банковской сферы, маркетинга, государственного и муниципального управления, телекома, Интернета и др.

Переход от анализа данных к анализу потоков данных составляет суть современных аналитических технологий.

Аналитика нужна не сама по себе, а для создания реальных моделей и выработки правильных решений в ситуациях, описываемых большим набором данных.

Итак, с одной стороны имеется множество данных, зачастую слабо структурированных или вовсе не структурированных, поступающих от различных источников, датчиков, контроллеров, переключателей, расходомеров, с другой стороны есть множество аналитических методов, интегрированных в рамках единой системы или доступных с помощью объектно-ориентированных языков программирования, где методы анализа также являются и объектами.

Попробуем структурно описать применение компьютерной аналитики в конкретных областях.

Промышленность. Текущий и прогностический мониторинг технологических процессов является стандартом для современного производства.

Например, современное производство алюминия — это сложная многофункциональная энергоемкая система, требующая тщательного технологического контроля и управления на основе постоянного мониторинга параметров и контроля содержание глинозема, регулировки расхода электроэнергии. Актуально применение систем технического зрения для оценки параметров криолитоглиноземного раствора в электролизерах в реальном времени.

Автоматизированные системы мониторинга и управления процессом могут включать цифровые камеры и используют методы корреляционного и регрессионного многомерного анализа для определения степени зашлакованности поверхности расплава по яркости излучения. Проводится оценка зависимостей составляющих оптического спектра от переизбытка фторида алюминия и расчета криолитового отношения и других параметров.

В направлении предиктивного моделирования и всестороннего мониторинга промышленного производства интенсивно развиваются Alcoa, Alcan, Siemens и другие компании.

Текстильная отрасль — натяжение нитей, оптимальные способы окраски тканей, описательный и предсказательный мониторинг показателей датчиков, прогнозирование и минимизация обрывов.

Контроль качества гипсокартонных листов проводится с помощью светодиодного света и высокоскоростных камер, фиксирующих дефекты поверхности, которые далее анализируются по величине, положению, частоте возникновения, классифицируются в режиме реального времени, используя методы анализа изображений, что позволяет вести производство на высоком уровне качества.

Необходимы оценка надежности оборудования, прогнозирование ремонтных работ и оптимизация работы сервисных служб на предприятии.

Детерминированные модели здесь не работают: различные условия и интенсивность эксплуатации делают необходимым применение прогностических моделей и статистических методов.

Нефтегазовая отрасль — измерения количества сырого газа, поступающего на вход в установку подготовки газа (датчики, расходомеры), влажности, регулирование потоков газового конденсата в печь, прогноз продукта на выходе, контроль на основе измерений.

Энергетика — энергосбережение, оптимальный расчет энергопотребления на предприятии. Предсказательный мониторинг подачи топлива в зависимости от сезона, погодных условий, сырья, оптимизация расхода газа или электроэнергии при выплавке металла.

Маркетинг — сбор и анализ информации по вверенной категории товаров, выявление причин падения продаж групп, категорий, причин негативных тенденций, формирование аналитической отчетности и т. д.

Этот список задач можно продолжить, аналитика нужна для эффективного управления сетью магазинов, расположенных в одном центре и на больших расстояниях друг от друга.

Продажа запчастей к современным автомобилям включает склад на несколько десятков тысяч наименований: прогнозирование профицита и дефицита деталей, формирование плана закупок, заказ деталей с учетом того, что требуемые детали должны быть поставлены в заданные сроки — покупателю нужен продукт здесь и сейчас.

Сбор, систематизация больших объемов информации, разработка отчетов и прогнозирование продаж, закупок, перевозки товаров и т. д. Проданная деталь или группа деталей могут мониториться и прогнозироваться по сроку службы, все это требует применения предсказательных моделей и аналитики.

Аналогичные задачи возникают в современном сельском хозяйстве  полив растений в зависимости от температуры окружающей среды и других факторов, внесение удобрений и тд.

Глобальная экономика — прогнозирование цен на нефть, в действительности нужно иметь данные о максимальном числе действующих скважин, зафрахтованных танкерах; сланцевая революция привела к открытию новых месторождений, и специфика, дебет также должны учитываться.

При этом классические задачи, когда мы имеем данные в «стационарном» виде, также не отменяются.

Разработка оптимального состав бетона с добавлением пластификаторов и полимеров актуальна в строительстве, нефтедобывающей промышленности. Планирование экспериментов — развитая область, лежащая на стыке статистики и физики — позволяет решать актуальные задачи создания новых материалов, выбора смеси, которые ранее было крайне сложно решить без компьютерной аналитики.

Теперь это доступно инженеру или технологу, имеющему под рукой эффективный статистический пакет. Важно осознать задачу, знать о существующих аналитических технологиях, применить правильный шаблон решения.

Интернет вещей

Современный промышленный Интернет вещей — это, по существу, система АСУТП, объединенная в классическую компьютерную IP-сеть, с проводной и беспроводной системами датчиков, передающих данные от одного устройства к другому, создавая интенсивные потоки данных.

Объектом анализа становится процесс.

Важный вопрос размерности данных снимается, например, использованием классических методов главных компонентов, факторного, кластерного анализа и т. п., позволяя строить предсказательные модели на главных компонентах, кластерах однородных данных, что повышает точность и оперативность результатов.

Никто не отменял интуицию и видение инженерами производственного процесса, однако располагая аналитическими технологиями можно достичь большого успеха, соединяя интуицию инженеров и технологов с аналитикой, решение же в итоге принимает человек.

Не нужно впадать в эйфорию, но осознав, что мир изменился, нужно научиться в нем действовать.

Что нужно для того, чтобы эффективно использовать технологии анализа данных и методы data science в современном цифровом мире?

Ответ: нужны правильно настроенные шаблоны анализа, доступные инженерам, технологам, администраторам в удобном и эффективном графическом интерфейсе.

Здесь уместно сравнение с игрой в шахматы: компьютер играет лучше чемпиона мира. Как только Каспаров и другие это поняли, они убрали претензии на гениальность — новичок, вооруженный программой «рыбка» или аналогичной программой на айфоне, играет лучше гроссмейстера.

Вопрос: почему?

Правильные шаблоны анализа партий и выработки решения — в этом суть шахматной аналитики. 20 тыс. партий начинаются ходом d2-d4, существует разветвленное дерево принятия решений, компьютер всегда обсчитает человека, поэтому наиболее удачливые современные шахматисты моделируют игру компьютера, иными словами, возникают цифровые шахматы, где вопрос о вдохновении снимается простым счетом позиции и целенаправленным перебором вариантов.

Аналогичная ситуация с возникновением внештатных ситуаций на предприятии: 90% возникает по причине А, 5% по причине В и т. д., сложность в том, что за причиной А может следовать причина В и т. д. Существующие аналитические технологии позволяют решать эти проблемы на высоком уровне, например, с помощью FMEA — Failure Mode and Effects Analysis (анализ видов, последствий и критичности отказов).

Компьютерная аналитика и Big Data

Когда у вас реально возникают большие данные?

Ответ на пальцах: когда данные не помещаются на одном персональном компьютере. Ответ по существу: когда анализируется процесс и имеются многомерные потоки данных.

Мониторинг потребления электроэнергии — реальный проект построения предсказательных моделей для Big Data: показатели снимаются в течение года каждые сутки с интервалом 30 минут, в проекте задействованы 6 тыс. объектов: жилые дома, офисы, предприятия. Данный проект с необходимостью приводит к большим данным. Конечная цель состоит в прогнозировании потребления электроэнергии кластерами измеряемых объектов.

Интересен проект внедрения беспроводной системы текущего и прогностического мониторинга состояния насосов на установке крекинга по производству этилена, пропилена и других продуктов.

Онлайн-мониторинг вибрации позволяет предотвратить отказ оборудования, например, разрушение зубцов в редукторе, отказ подшипников, выявить проблемы со смазкой.

Отслеживание пиков вибрации в реальном времени, так называемая технология пиковых нагрузок (Peak Value), позволяет минимизировать отказы насосов и сократить расходы на обслуживание. Данные о вибрации передаются в систему управления технологическими процессами, анализируются с помощью заранее настроенных и тестированных предиктивных моделей.

Внедренная ячеистая сеть позволяет технически быстро и эффективно получать информацию о состоянии объектов контроля, добавлять и переносить беспроводные приборы для получения дополнительной информации о процессах в удаленных или труднодоступных местах.

Аналогичные системы могут использоваться на металлургических предприятиях для мониторинга состояния прокатных станов по показателям шума и вибрации, подшипников в прокатном оборудовании, планирования и проведения ремонтных работ, оценки состояния насосов в нефтедобывающей промышленности, предупреждения разрывов трубопроводов, на современных ТЭЦ и ГРЭС.

Дерево принятия решений или деревья классификации являются ключевыми при анализе реальных данных и построении адекватных предсказательных моделей.

О том, как предиктивные модели создаются и работают на практике, мы расскажем в серии статей, уделяя основное внимание синтезу аналитических технологий и технологий потоков данных и описанию конкретных задач и результатов.

Автор статьи — директор департамента компании «СофтЛайн», CEO StatSoft Russia.