НовостиОбзорыСобытияIT@Work
Документооборот/ECM:

Блог

Термин Big Data умер? Но дело его живет!

Более того – оно процветает. Правда, не в виде программно-аппаратных комплексов, предлагаемых конечному и весьма богатенькому пользователю, а в виде облачных сервисов, доступных компаниям среднего, а то и совсем небольшого размера.

Вот пример, взятый из жизни сервиса, который предлагает одна российская компания и который публично ещё не анонсирован. Хотя уже активно используется. Представьте себе пространственно распределенную торговую сеть, в штате которой насчитывается около 100 тыс. рядовых сотрудников (кассиров, товароведов, грузчиков,  и т. д.). Ежемесячно из этой сети около 8 тыс. человек увольняется и примерно столько же принимается на работу. При этом данные 8 тыс. человек набираются путем “просеивания” примерно 56 тыс. кандидатов, приходящих к работодателю по объявлениям в СМИ (радио, TV, печатные издания) или на Job-cайтах; по рекомендациям тех, кто в данной сети работает сейчас, или работал раньше; по призывам, звучащим с наружной рекламы и так далее.

По вашему, оперативная обработка 56 тыс. резюме и выявление эффективности того или и иного вида рекламы – это задача из области Big Data, или из другой области? Формально – из другой. Во-первых, практически все данные, которые необходимо при этом анализировать, являются структурированными (а ведь технологии Big Data отличаются от BI-технологий тем, что последние могут работать только со структурированными данными, а первые – с теми и другими). А во-вторых, технологии Big Data предполагают, что большие данные физически хранятся не на одном сервере, а на множестве серверов, находящихся в заметном удалении друг от друга. В то же время очевидно, что объем обрабатываемых данных огромен и обрабатывать эти данные необходимо в реальном режиме времени. Грубо говоря, часто бывает, что буквально за одну неделю кандидат “превращается” в действующего сотрудника.

Тут, конечно, возникает философский вопрос о том, что проще – превратить неструктурированные данные в структурированные и собрать их в одном месте (одном облаке), или, используя заумные алгоритмы, обрабатывать неструктурированные данные, разбросанные (в данном случае) по конкретным магазинам. Которые, в свою очередь, разбросаны по нескольким десяткам городов нашей страны.

Руководство рассматриваемой торговой сети не стало вникать в смысл термина Big Data и исследовать рынок продуктов, использующих методы обработки больших данных. Оно обратилось к компании, которая имеет опыт обработки такого рода данных и отдало этой компании процессы набора так называемого массового персонала на аутсорсинг. Теперь руководство данной сети точно знает, какая реклама эффективнее (как выяснилось, реально, в пересчете на одного принятого сотрудника, стоимость рекламных затрат на привлечение персонала, в зависимости от выбранного канала рекламы лежит в пределах от нескольких сотен до нескольких тысяч рублей) и кто из кандидатов, скорее всего, проработает дольше и лучше. А также, как влияют на текучесть персонала те или иные материальные или нематериальные “кнуты” и “пряники”.

Можно, конечно, говорить, что компания, взявшая на себя сбор и обработку большого количества данных, связанных с набором массового персонала и отслеживанием причин, влияющих на его текучесть (легко догадаться, что при этом используются облачные технологии и разные методы бизнес-аналитики), не использует концепции Big Data. Но что от этого изменится?
Митин Владимир
мощность серверов увеличивается, надежность их работы повышается, спектр приложений разнообразен, а мы все пичкаем ЛПР гигабайтами информации. А ему нужно обращаться к системе, только тогда, когда показатель выходит за критические значения.
Золотые слова! К ним можно лишь добавить, что способности человеческого мозга в результате происходящей на наших глазах "цифровой революции", увы, не увеличились – он в течение дня может воспринять лишь ограниченное количество текстов, графиков, диаграмм и прочей медиаинформации.

О том, что ЛПР (лицо, принимающее решение) должен обращаться к системе, только тогда, когда показатель выходит за критические значения. Проблема здесь в том, что надо знать, какие именно показатели следует контролировать! Смотрите: граф Суворовъ за время своей полководческой деятельности выиграл 60 крупных сражений и при этом ни одного не проиграл! Среди прочему, этому способствовало его умение регулярно получать обратную связь не только от подчиненных ему генералов, но и от более нижних чинов – вплоть до рядовых (к слову: многие ли современные топ-менеджеры этому примеру следуют?). Вторая причина его (Александра Васильевича Суворова) успехов – знание того, какие параметры следует контролировать и какие превентивные меры следует предпринять, чтобы эти параметры в обозримом будущем не вышли за допустимые пределы. В этом, в принципе, и есть ноу-хау любого руководителя (уметь управлять персоналом, вдохновить его на великие победы и знать, какие именно параметры и с какой периодичностью следует контролировать). Если топ-менеджер соответстсвующими навыками не владеет, то ему не помогут ни облака, ни мобильность, ни технологии Big Data, ни наисовременнейшие HRMS-системы!


Можно привести и другой пример: возведение египетских пирамид. Ведь никаких компьютеров и систем управления проектами тогда не было! :)   Однако методика управления проектами была. Более свежий пример: возведение Эйфелевой башни в кратчайшие сроки и с использованием относительно небольшого количества рабочих.

К чему я это говорю – а к тому, что компьютерные системы – не панацея. Это инструмент, который раскрывается лишь тогда, когда им пользуется профессионал. Посадите чайника за рояль или руль гоночной машины. Будет ли от этого толк? Когда говорят о больших данных (Big Data), то намекают на то, что человек сидит на больших данных, но не использует их – то есть в какой-то степени является “собакой на сене”. Поэтому мне искренне не понятно настойчивое желание  г-на Колесова похоронить термин Big Data и “начать жизнь с чистого лиcта”. Прежде чем что-то разрушить, очень желательно что-то построить…
[/B

В области гидрометеорологии  еще в семидесятых годах мы обрабатывали десятки миллионов перфокарт, потом тысячи магнитных лент, применяя при этом аналитические средства… не используя термины Big Data.

Да, деятельность Гидрометцентра можно считать обработкой больших данных! Она также подпадает под Интернет вещей  и даже под так называемые “Туманные вычисления”. Возможно, она подпадет и под  многие ИТ-термины, которые ещё не родились!  :)  В этом нет ничего удивительного. [B]Закон Всемирного тяготения действовал ещё до того, как его открыли. Равно как и законы диалектического материализма. От того, что их перестали изучать в общеобразовательных школах и “нефилософских” вузах, они не перестали действать!
 :)

Кстати: совсем недавно весь предсказательный софт Гидрометцентра писался на Фортране. Говорят, Intel в свое время даже компилятор с Фортрана под новые версии своих процессоров написал. В немалой степени ради того, чтобы такой крупный клиент, как Гидрометцентр, не перешел на платформы конкурентов. Интересно, Гидрометцентр и сейчас фортрановские программы использует?

Лично я прогнозам Гидрометцентра доверяю больше всего. И недельными прогнозами этой уважаемой организации пользуюсь не только тогда, когда нахожусь в России, но и когда бываю в Европе или на Ближнем Востоке. При этом сверяю их с показаниями настольного домашнего умного шведского барометра RST, который на своем ЖК-экране наглядно показывает не только давление, но и то, куда и с какой скоростью это давление движется. К примеру, сайт Гидрометцентра обещает на понедельник (5 октября) по Москве “днем местами небольшой дождь”. И мой настольный умный барометр RST показывает, что давление падает и осадки, скорее всего, завтра действительно будут…

Удивляет однако, почему Гидрометцентр не создал мобильное приложение, понимающее текущее местоположение пользователя и выдающая ему суточные и недельные прогнозы. Заодно предупреждая его о магнитных бурях и прочих напастях… Что вы, Евгений, на этот счет думаете?
Вязилов Евгений
Владимир! Похоже в области больших данных у нас понимание проблемы близкое. Обработка больших данных была до появления термина "Big data", есть и будет с использование как монолитных программ, так и специализированных - типа аналитических систем, Hadoop, Watson.

Спасибо за оценку работу Гидрометцентра России. Редко услышишь похвалу, чаще "поливают".
А язык Фортран еще жив - разработанные на нем прогностические модели мигрируют уже наверно более чем на 10 типов ЭВМ.
Мобильное приложение на сайте Росгидромета (http://www.meteorf.ru/product/Mobile/)  есть, но я, например, не смог установить его нас вой смартфон. Гидрометцентр совместно с компанией СИНОП разработал еще одно нативное приложение (http://synop.ru/#/welcome).
В нашем институт (ВНИИГМИ-МЦД) разработана Единая государственная система информации об обстановке в Мировом океане (http://esimo.ru), в которой мы интегрировали океанографические, метеорологические и другие типы данных, включая наблюдения, диагноз, прогноз и климат. И сейчас на основе интегрированных данных  развиваем информационное обслуживание пользователей, включая доставку на мобильное интернет-устройство. При этом приложение на мобильном интернет-устройстве будет инициализироваться  только тогда, когда значение гидрометеорологическое параметра превысит критическое значение (т.е. фиксируется опасное явления, кроме опасных гидрометеорологических явлений здесь можно учитывать и геофизические явления).  Пользователь далее сможет более детально ознакомиться с сложившейся обстановкой, а также получить сведения о возможных воздействиях природной среды на промышленные объекты и населения, а также оценку возможного ущерба. Кроме того, он получит рекомендации для принятия решений и сможет оценить стоимость превентивных мероприятий.
К сожалению, такая разработка пока идет в инициативном порядке.
Тарасов Сергей
Евгений, во многом согласен с вашей оценкой "новизны" т.н. "больших данных".
См. "Большие данные" как состояние отрасли