НовостиСобытияКонференцииФорумыIT@Work
Идеи и практики автоматизации:

Блог

Big Data -- новая мечта системного интегратора

Сергей Бобровский
21.02.2012 10:47:10
Теги: Big Data, КИС

Облачные технологии уже не топовый хит. Очередной ажиотаж разгорается вокруг Big Data, которые, собственно следствие облачных подходов. Ведь clouds -- лишь базовый механизм накопления и формирования этих Больших данных, и не более.

Крупнейшая в мире розничная сеть Wal-Mart каждый час обрабатывает миллион транзакций, а в ее БД накоплено 2,5 петабайта данных, в сотни раз больше, нежели в Библиотеке Конгресса США. Фейсбук хранит 40 млрд. фотографий, а на ютуб каждую минуту заливается 35 часов видео. И что с этим делать?

По мере развития э-правительств соответствующая проблема становится крайне актуальной и для госструктур. Так, в НАСА накоплено 3 петабайта информации, в Роскосмосе наверняка не меньше.

Ключом системного подхода к грамотной эксплуатации Big Data эксперты называют метаданные (данные, описывающие смысл данных). Они крайне важны для успеха любого Big Data-проекта, независимо от используемых технологий и инструментария. Anne Lapkin, аналитик Gartner, отмечает, что популярные средства работы с Big Data наподобие Hadoop достигают высокой эффективности именно потому, что они акцентируются на обработке прежде всего метаданных.

Тут четыре важных момента.
1. Нужны стандарты, дабы система могла успешно хранить Big Data, собираемые из разных источников.
2. Откуда возьмутся сами метаданные?
3. А можно ли "просто взять и начать использовать" например самый популярный Big Data-движок Hadoop?
4. Где взять специалистов по абсолютно новой инженерной теме -- много и быстро?

Стандарты и сотрудники -- это вопрос скорее организационный. Ответа на второй вопрос я не знаю, может, вы подскажете? Но он тесто связан со стандартами.

Что касается Hadoop. Практика показывает, что для столь масштабных проектов, как Big Data, просто скачать и установить подобный софт недостаточно. К системе предъявляются высокие и подчас весьма специфические требования по процессорной мощности, полосе пропускания, быстроте жестких дисков итп. Поэтому на данный рынок активно рванули ИТ-гиганты, предлагая комплексные программно-аппаратные решения, заточенные под Big Data, "под ключ".

Oracle анонсировала Oracle Big Data Appliance, IBM -- InfoSphere BigInsights (на базе Hadoop), где-то рядом и SAS. Microsoft представила связку Apache Hadoop с Windows Server/SQL Server и Windows Azure. А SAP в январском интервью Forbes сообщила о стратегии Big Data HANA, которая "стирает границы между транзакционной и аналитической обработкой". Судя по всему, это СУБД-в-памяти для аналитики в режиме времени, близком к реальному, правда, ориентированная на структурированные данные -- для "неструктурки" SAP планирует использовать решения партнеров HP, IBM и EMC, и Hadoop-версии от Cloudera and Tresata.

Причем проблемы производительности тут столь критичны, что инженеры придумывают механизмы анализа данных "на лету", в момент их приемки, по аналогии с антивирусными механизмами, дабы не тратить время на формальное размещение в БД. Пока, правда, эти работы лишь в самом начале.

У вашего покорного слуги с сегодняшним трендом Big Data -- по стилю его развития, корпоративным акцентам, технологическим профилям и архитектуре, способам продвижения, "цене входного билета", внедренческим тенденциям -- очень сильно ассоциируются КИС, о которых в 90-е годы PC Week/RE писал настоящие поэмы. По крайней мере, ничего более близкого классическим корпоративным интересам буквально до начала 2012-года точно не было. Сегодня же повзрослевшие, Большие КИС, вновь возвращаются, только уже на новом витке эволюции.

Большие данные -- это мульти-клиентность, мульти-платформность, мульти-датабазовость, мультиформатность, многоуровневость и много-КИСовость. Сложно, трудно, дорого smile:) , невероятно интересно и крайне актуально.

Комментариев: 0

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии