НовостиСобытияКонференцииФорумыIT@Work
Документооборот/ECM:

Блог

Термин Big Data умер? Но дело его живет!

Владимир Митин
02.10.2015 10:35:07

Более того – оно процветает. Правда, не в виде программно-аппаратных комплексов, предлагаемых конечному и весьма богатенькому пользователю, а в виде облачных сервисов, доступных компаниям среднего, а то и совсем небольшого размера.

Вот пример, взятый из жизни сервиса, который предлагает одна российская компания и который публично ещё не анонсирован. Хотя уже активно используется. Представьте себе пространственно распределенную торговую сеть, в штате которой насчитывается около 100 тыс. рядовых сотрудников (кассиров, товароведов, грузчиков, и т. д.). Ежемесячно из этой сети около 8 тыс. человек увольняется и примерно столько же принимается на работу. При этом данные 8 тыс. человек набираются путем “просеивания” примерно 56 тыс. кандидатов, приходящих к работодателю по объявлениям в СМИ (радио, TV, печатные издания) или на Job-cайтах; по рекомендациям тех, кто в данной сети работает сейчас, или работал раньше; по призывам, звучащим с наружной рекламы и так далее.

По вашему, оперативная обработка 56 тыс. резюме и выявление эффективности того или и иного вида рекламы – это задача из области Big Data, или из другой области? Формально – из другой. Во-первых, практически все данные, которые необходимо при этом анализировать, являются структурированными (а ведь технологии Big Data отличаются от BI-технологий тем, что последние могут работать только со структурированными данными, а первые – с теми и другими). А во-вторых, технологии Big Data предполагают, что большие данные физически хранятся не на одном сервере, а на множестве серверов, находящихся в заметном удалении друг от друга. В то же время очевидно, что объем обрабатываемых данных огромен и обрабатывать эти данные необходимо в реальном режиме времени. Грубо говоря, часто бывает, что буквально за одну неделю кандидат “превращается” в действующего сотрудника.

Тут, конечно, возникает философский вопрос о том, что проще – превратить неструктурированные данные в структурированные и собрать их в одном месте (одном облаке), или, используя заумные алгоритмы, обрабатывать неструктурированные данные, разбросанные (в данном случае) по конкретным магазинам. Которые, в свою очередь, разбросаны по нескольким десяткам городов нашей страны.

Руководство рассматриваемой торговой сети не стало вникать в смысл термина Big Data и исследовать рынок продуктов, использующих методы обработки больших данных. Оно обратилось к компании, которая имеет опыт обработки такого рода данных и отдало этой компании процессы набора так называемого массового персонала на аутсорсинг. Теперь руководство данной сети точно знает, какая реклама эффективнее (как выяснилось, реально, в пересчете на одного принятого сотрудника, стоимость рекламных затрат на привлечение персонала, в зависимости от выбранного канала рекламы лежит в пределах от нескольких сотен до нескольких тысяч рублей) и кто из кандидатов, скорее всего, проработает дольше и лучше. А также, как влияют на текучесть персонала те или иные материальные или нематериальные “кнуты” и “пряники”.

Можно, конечно, говорить, что компания, взявшая на себя сбор и обработку большого количества данных, связанных с набором массового персонала и отслеживанием причин, влияющих на его текучесть (легко догадаться, что при этом используются облачные технологии и разные методы бизнес-аналитики), не использует концепции Big Data. Но что от этого изменится?

Комментариев: 8

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии

03.10.2015 19:05:04

Ваш пример сравним с моим примером 35 летней давности. Одна из наших родственных организаций отчиталась в начале восьмидесятых годов "Создан банк данных в объеме 750 перфокарт". Создание банков данных в то время был главный тренд развития ИТ. Для этой организации создание файлов данных на носителях, это было уже достижение. Но с точки зрения развития ИТ это отражало развитие 10 летней давности.
Точно также формализовать и автоматизировать процессы сбора информации о потенциальных работниках, проверить корректность этих данных и дополнить ее из по другим источникам из Интернет, а также иметь хорошую систему поиска - это обычная, хорошая и нужная, я бы сказ "разведывательная", с применением аналитики задача. Только при чем здесь Big Data? Объем данных заурядный, разнообразие - не ахти какое (основная часть структурированная, дополнительная - текст), обработка данных в он-лайн - это тоже нормальная организация технологии.

03.10.2015 23:58:52

Цитата
Одна из наших родственных организаций отчиталась в начале восьмидесятых годов "Создан банк данных в объеме 750 перфокарт”

Евгений, согласитесь, что банк данных в объеме 750 перфокарт существенно лучше, чем несколько десятков страниц неструктурированного машинописного, а то и рукописного текста! smile:) Из данных этого перфокарточного банка при желании (и наличии считывателя перфокарт) можно быстро строить разного рода наглядные графики и диаграммы!

У нас же многие себя даже элементарным анализом данных не утруждают (хотя все эти данные у них есть). Самый свежий пример: с высокой трибуны утверждается, что в нашей стране на 100 пенсионеров приходится 120 работающих. При этом умалчивается, сколько процентов пенсионеров у нас работают, не в силах прокормить себя на пенсию… И умалчивается о том, насколько велик разброс пенсий у разных категорий пенсионеров… Не говоря уже о более глубоком прогнозном анализе…

Цитата
Объем данных заурядный, разнообразие - не ахти какое (основная часть структурированная, дополнительная - текст), обработка данных в он-лайн - это тоже нормальная организация технологии.

Евгений, на ваш взгляд, оперативный выбор 8 тыс. сотрудников из 56 тыс. кандидатов (с учетом региональной и должностной специфики) – тривиальная задача? Здесь ведь одна из больших проблема в том, что далеко не всегда ясно, по каким именно критериям и алгоритмам такого рода выбор следует производить (то есть система подбора кадров должна быть обучаемой, в идеале -- самообучаемой). С ключевыми сотрудниками (когда нужно выбрать несколько десятков специалистов из нескольких сотен кандидатов) дело обстоит проще. Глава одной интеграторской компании во время круглого стола, посвященного проблемам набора, развития и удержания персонала с использованием наисовременнейших HRMS-cистем, как-то заявил примерно следующее: “Никакие хитроумные алгоритмы здесь не нужны: опыт реальных ИТ-работодателей показывает, что лучше всего работают хорошо образованные молодые женщины, имеющие определенный опыт работы в должности, чем-то аналогичной вакантной, приехавшие в Москву из провинции и снимающие квартиры. Если мне на стол кладут несколько резюме, то я именно этим правилом и руководствуюсь. И практически никогда не ошибаюсь. Более того – эти дамы, как правило, постоянно самосовершенствуются и быстро продвигаются по служебной лестнице”! smile:) Вот так-то! smile:)

04.10.2015 07:45:45

Владимир! Задача интересная с точки зрения построения базы знаний, я с этим полностью согласен. Но эта задача совсем не относится к области Big Data, это система из области искусственного интеллекта.

04.10.2015 09:00:08

Цитата
Задача интересная с точки зрения построения базы знаний, я с этим полностью согласен.

Евгений, на самом деле, важно не только выбрать правильную структуру данных, а также быстро и правильно обработать данные, но и хорошо их представить лицу, принимающему решения!

Цитата
Но эта задача совсем не относится к области Big Data, это система из области искусственного интеллекта
Одно другому не мешает. А вы какие российские проекты, использующие концепции Big Data, знаете?

04.10.2015 17:46:35

Владимир! А кто спорит, конечно, вся деятельность ИТ должна помогать лицам, принимающим решения. Но, к сожалению, мощность серверов увеличивается, надежность их работы повышается, спектр приложений разнообразен, а мы все пичкаем ЛПР гигабайтами информации. А ему нужно обращаться к системе, только тогда, когда показатель выходит за критические значения и выдавать ему надо не графики изменения показателей (хотя это тоже нужно), а сведения о возможных воздействиях этих показателей на промышленные объекты и рекомендации для принятия решений.

В области гидрометеорологии еще в семидесятых годах мы обрабатывали десятки миллионов перфокарт, потом тысячи магнитных лент, применяя при этом аналитические средства (агрегацию данных по различным пространственно-временным масштабам, построение карт и графиков), не используя термины Big Data, аналитические системы.

04.10.2015 21:54:37

Цитата
мощность серверов увеличивается, надежность их работы повышается, спектр приложений разнообразен, а мы все пичкаем ЛПР гигабайтами информации. А ему нужно обращаться к системе, только тогда, когда показатель выходит за критические значения.

Золотые слова! К ним можно лишь добавить, что способности человеческого мозга в результате происходящей на наших глазах "цифровой революции", увы, не увеличились – он в течение дня может воспринять лишь ограниченное количество текстов, графиков, диаграмм и прочей медиаинформации.

О том, что ЛПР (лицо, принимающее решение) должен обращаться к системе, только тогда, когда показатель выходит за критические значения. Проблема здесь в том, что надо знать, какие именно показатели следует контролировать! Смотрите: граф Суворовъ за время своей полководческой деятельности выиграл 60 крупных сражений и при этом ни одного не проиграл! Среди прочему, этому способствовало его умение регулярно получать обратную связь не только от подчиненных ему генералов, но и от более нижних чинов – вплоть до рядовых (к слову: многие ли современные топ-менеджеры этому примеру следуют?). Вторая причина его (Александра Васильевича Суворова) успехов – знание того, какие параметры следует контролировать и какие превентивные меры следует предпринять, чтобы эти параметры в обозримом будущем не вышли за допустимые пределы. В этом, в принципе, и есть ноу-хау любого руководителя (уметь управлять персоналом, вдохновить его на великие победы и знать, какие именно параметры и с какой периодичностью следует контролировать). Если топ-менеджер соответстсвующими навыками не владеет, то ему не помогут ни облака, ни мобильность, ни технологии Big Data, ни наисовременнейшие HRMS-системы!


Можно привести и другой пример: возведение египетских пирамид. Ведь никаких компьютеров и систем управления проектами тогда не было! smile:) Однако методика управления проектами была. Более свежий пример: возведение Эйфелевой башни в кратчайшие сроки и с использованием относительно небольшого количества рабочих.

К чему я это говорю – а к тому, что компьютерные системы – не панацея. Это инструмент, который раскрывается лишь тогда, когда им пользуется профессионал. Посадите чайника за рояль или руль гоночной машины. Будет ли от этого толк? Когда говорят о больших данных (Big Data), то намекают на то, что человек сидит на больших данных, но не использует их – то есть в какой-то степени является “собакой на сене”. Поэтому мне искренне не понятно настойчивое желание г-на Колесова похоронить термин Big Data и “начать жизнь с чистого лиcта”. Прежде чем что-то разрушить, очень желательно что-то построить…
[/B
Цитата

В области гидрометеорологии еще в семидесятых годах мы обрабатывали десятки миллионов перфокарт, потом тысячи магнитных лент, применяя при этом аналитические средства… не используя термины Big Data.


Да, деятельность Гидрометцентра можно считать обработкой больших данных! Она также подпадает под Интернет вещей и даже под так называемые “Туманные вычисления”. Возможно, она подпадет и под многие ИТ-термины, которые ещё не родились! smile:) В этом нет ничего удивительного. [B]Закон Всемирного тяготения действовал ещё до того, как его открыли. Равно как и законы диалектического материализма. От того, что их перестали изучать в общеобразовательных школах и “нефилософских” вузах, они не перестали действать!
smile:)

Кстати: совсем недавно весь предсказательный софт Гидрометцентра писался на Фортране. Говорят, Intel в свое время даже компилятор с Фортрана под новые версии своих процессоров написал. В немалой степени ради того, чтобы такой крупный клиент, как Гидрометцентр, не перешел на платформы конкурентов. Интересно, Гидрометцентр и сейчас фортрановские программы использует?

Лично я прогнозам Гидрометцентра доверяю больше всего. И недельными прогнозами этой уважаемой организации пользуюсь не только тогда, когда нахожусь в России, но и когда бываю в Европе или на Ближнем Востоке. При этом сверяю их с показаниями настольного домашнего умного шведского барометра RST, который на своем ЖК-экране наглядно показывает не только давление, но и то, куда и с какой скоростью это давление движется. К примеру, сайт Гидрометцентра обещает на понедельник (5 октября) по Москве “днем местами небольшой дождь”. И мой настольный умный барометр RST показывает, что давление падает и осадки, скорее всего, завтра действительно будут…

Удивляет однако, почему Гидрометцентр не создал мобильное приложение, понимающее текущее местоположение пользователя и выдающая ему суточные и недельные прогнозы. Заодно предупреждая его о магнитных бурях и прочих напастях… Что вы, Евгений, на этот счет думаете?

05.10.2015 09:06:22

Владимир! Похоже в области больших данных у нас понимание проблемы близкое. Обработка больших данных была до появления термина "Big data", есть и будет с использование как монолитных программ, так и специализированных - типа аналитических систем, Hadoop, Watson.

Спасибо за оценку работу Гидрометцентра России. Редко услышишь похвалу, чаще "поливают".
А язык Фортран еще жив - разработанные на нем прогностические модели мигрируют уже наверно более чем на 10 типов ЭВМ.
Мобильное приложение на сайте Росгидромета (http://www.meteorf.ru/product/Mobile/) есть, но я, например, не смог установить его нас вой смартфон. Гидрометцентр совместно с компанией СИНОП разработал еще одно нативное приложение (http://synop.ru/#/welcome ).
В нашем институт (ВНИИГМИ-МЦД) разработана Единая государственная система информации об обстановке в Мировом океане (http://esimo.ru), в которой мы интегрировали океанографические, метеорологические и другие типы данных, включая наблюдения, диагноз, прогноз и климат. И сейчас на основе интегрированных данных развиваем информационное обслуживание пользователей, включая доставку на мобильное интернет-устройство. При этом приложение на мобильном интернет-устройстве будет инициализироваться только тогда, когда значение гидрометеорологическое параметра превысит критическое значение (т.е. фиксируется опасное явления, кроме опасных гидрометеорологических явлений здесь можно учитывать и геофизические явления). Пользователь далее сможет более детально ознакомиться с сложившейся обстановкой, а также получить сведения о возможных воздействиях природной среды на промышленные объекты и населения, а также оценку возможного ущерба. Кроме того, он получит рекомендации для принятия решений и сможет оценить стоимость превентивных мероприятий.
К сожалению, такая разработка пока идет в инициативном порядке.

26.10.2015 14:46:28

Евгений, во многом согласен с вашей оценкой "новизны" т.н. "больших данных".
См. "Большие данные" как состояние отрасли

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии