Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Идеи и практики автоматизации: Статьи Новости компаний Решения

Панорама

Игорь Буторин: «Собственная архитектура — это форма технологической независимости IT-сектора в России»

Разработчик архитектурного коммуникационного ядра, которое применялось при разработке продуктов для разных сегментов рынка …

Как строится надёжность цифровых систем: инженер Костадин Алмишев и его стратегия создания предсказуемых сервисов

В современной финансовой индустрии существует интересный парадокс: чем сложнее становятся технологии внутри банка или …

Мариус Малышев: «Без понимания инфраструктуры код просто не дойдет до пользователя»

Инженер, прошедший путь от строительства дата-центров до финтех-разработки, — о том, почему в эпоху Edge …

Как получить финансовый контроль над ИТ: интеграция ITSM+ITAM

ИТ-отдел работает как часы: заявки обрабатываются быстро, доступность услуг высокая, пользователи довольны. Но каждый …

Дарья Богун: «Обучение IT и криптовалютам скоро станет повсеместным»

Недавно завершился престижный международный конкурса Cases and Faсes, где отбирают самые инновационные и технологичные …

Big Data: от разговоров к делу

PC Week/RE №5 (860) 25 марта 2014

Сергей Свинарев | 03.03.2014

Луис Кампос привел ряд впечатляющих примеров практической реализации технологии больших данных

Ольга Горчинская призвала начать решать с помощью технологий Big Data какие-то полезные практические или модельные задачи

Открывая очередную конференцию Oracle Big Data & BI Forum, руководитель направления Big Data в Oracle в регионе EMEA Луис Кампос привел ряд впечатляющих примеров практической реализации технологии больших данных. Однако во всех этих примерах было две общие особенности: все проекты были реализованы за рубежом и все они использовали программно-аппаратные платформы Oracle. Указанный акцент, как мне кажется, в определенной степени способствует сохранению настороженно-скептического отношения отечественных компаний к решениям Big Data. Многие считают, что мы в нашей стране еще к подобным новшествам не готовы, а кое-кто подозревает, что проекты по большим данным потребуют и больших затрат на приобретение решений промышленного класса от Oracle. Справедливости ради, следует сказать, что в отличие от прошлогоднего подобного форума на нынешнем появились и первые отечественные примеры проектов Big Data, которые, кстати, рассеяли упомянутые выше подозрения.

Впрочем, примеров таких пока еще очень не много: в результате экспресс-опроса участников конференции выяснилось, что реальный проект ведется только в одной организации и еще в нескольких начаты пилотные проекты. Основная часть аудитории пришла, чтобы познакомиться с технологией больших данных и получить дополнительную информацию. По-прежнему некоторые слушатели просят дать четкое определение Big Data и получают в ответ классическую дефиницию, опирающуюся на так называемые V-факторы (Volume, Velocity, Variaty — большой объем данных, высокая скорость их накопления и изменения и существенное разнообразие типов и форматов). По-прежнему их это определение в чем-то не устраивает, а схоластические споры, по сути, заменяют реальное дело.

Разорвать такой замкнутый круг попыталась директор по исследовательским проектам ФОРСа Ольга Горчинская, которая призвала не заострять внимание на пугающем всех слове “большие”, а попробовать начать решать с помощью технологий Big Data какие-то полезные практические или модельные задачи. Как нетрудно догадаться, именно по этому пути и пошли в ФОРСе. Они решили выявить круг типовых задач Big Data, которые могут представлять практический интерес для российских заказчиков, задач, которые трудно или дорого решать при помощи традиционных инструментов. Пока что такая деятельность находится в нашей стране на стадии экспериментов, а не реальных проектов, но, как считает Ольга Горчинская, аналогичная ситуация наблюдается и за рубежом. Контакты ФОРСа с потенциальными заказчиками показывают, что наибольший интерес технологии Big Data вызывают у банков, телекоммуникационных операторов, риэлторов, а также в ритейле и госсекторе. Наиболее популярны задачи повышения производительности при обработке уже использовавшихся ранее данных и вовлечения в аналитическую обработку новых типов данных.

Одна из таких задач — совместный анализ неструктурированных текстов (в том числе, получаемых из внешних источников) и реляционных данных с целью проведения клиентской аналитики или смыслового поиска. Важно при этом не изобретать собственный велосипед, а широко использовать уже имеющиеся продукты и решения. В частности, в тестовом проекте ФОРСа для поиска текстов в Интернете и извлечения из них понятий и фактов применялись продукты RCO, IQ'MEN, ABBYY FactExtractor и Cloudera Hadoop, а для дальнейшего исследования — Oracle Endeca. На базе указанных решений были построены демо-примеры для управления персоналом, анализа интернет-источников, процессов обучения и экспертной оценки стоимости объектов недвижимости. Любопытно, что во всех упомянутых кейсах объем данных был не таким уж большим, но для их исследования использовались нетрадиционные технологии.

Еще один пример такого рода привел директор ФОРСа по технологиям Андрей Тамбовский. На этот раз решалась вполне реальная задача, вставшая перед сотрудниками дистрибьюторского подразделения компании. За двадцатилетнюю историю в ней накопилось множество контрактов, которые в разное время оформлялись по разным стандартам и хранились в самых разных форматах — от документов Word, Excel и PDF до JPEG-сканов. Организации, покупавшие в свое время ПО через ФОРС, нередко спустя много лет обращаются с просьбой уточнить детали их лицензионных контрактов. Традиционная процедура поиска по ключевым словам в файловых архивах требует много времени и трудозатрат, а иногда, как например, в случае с JPEG-изображениями, попросту не годится.

Для решения указанной задачи все контракты были размещены в Hadoop-кластере, построенном на дешевых x86-серверах (а вовсе не на более дорогом Oracle Big Data Appliance). Распределенный поиск осуществлялся при помощи свободного ПО Cloudera Search, причем попутно сканы документов подвергались OCR-распознаванию. Если по старой технологии с применением Total Commander поиск в 15-Гб архиве занял 2,5 ч, то с помощью Cloudera Search искомые четыре файла были найдены за 1 мин. И это при том, что Total Commander нашел только два файла, не заметив документы в формате .xlxs, и в принципе был не способен искать в графических файлах. Думается, подобные примеры, свидетельствующие о том, что большие данные и большие расходы вовсе не обязательно должны быть логически связаны, делают для популяризации технологий Big Data гораздо больше, чем бесконечные теоретические рассуждения на эту тему.

Печать Печать без изображений

	События
	«PRO Согласование: как мы изменили культуру работы с документами в Юралс Кэпитал» 31 марта 2026 г. (вторник), 11:00 — 12:00, Онлайн-трансляция «Про ИБ без воды 2026: практика от практиков» 22 апреля 2026 г. (среда), 10:00 — 18:00, Москва

Статьи по теме

Почему “автоматизированная” инфраструктура может обойтись дороже, чем вы думаете

Прекратите терять скорость разработки из-за разрастания автоматизации. Выявляйте скрытые затраты, консолидируйте операционные …

Как получить финансовый контроль над ИТ: интеграция ITSM+ITAM

Как привести ИТ-операции в соответствие с развивающейся инфраструктурой

Прекратите реагировать на сбои. Рассмотрите четыре предлагаемые шага по превращению ИТ-операций (ITOps …

Как агентный ИИ изменит будущее авиаперевозок

Авиационная отрасль уже внедряет решения на основе искусственного интеллекта, но это лишь верхушка айсберга тех …

Тренды развития Process Mining в России

Подготовленное порталом ProcessMi независимое исследование рынка Process Mining позволяет говорить, что в 2025 году …

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Big Data: от разговоров к делу

Луис Кампос привел ряд впечатляющих примеров практической реализации технологии больших данных

Ольга Горчинская призвала начать решать с помощью технологий Big Data какие-то полезные практические или модельные задачи

Комментарии