НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

У Cray появилась Jena

Потенциал Big Data столь велик, что в эту сферу устремляются компании, профиль которых от Больших данных весьма далек. Так, корпорация Cray, известная своими суперкомпьютерами, сформировала дочернюю структуру Yarcdata (Yarc = Cray наоборот), которая будет специализироваться на Big Data.

[spoiler]Формально объявлено, что Yarc создана в рамках диверсификации бизнеса Cray с сохранением классической суперкомпьютерной линейки. Диверсификация эта охватывает три направления: "боксы" -- типа суперкомпьютеры, но по дешевке (порядка 200 тыс. долл.); хранилища данных; большие данные.

В Yarcdata вошли спецы, известные работой в СУБД-фирмах (в частности, из Informatica, известной тяжеленными интеграционными и ETL-системами). Они создают uRika -- систему для работы с данными в виде графов (фактически с RDF-триплетами, дополненными идентификатором позиции в графе), запросы к которой выполняются на языке SPARQL.

Вообще создание Yarcdata, которая вроде как даже планирует использовать Hadoop, смотрится несколько странно. Hadoop как раз называют "киллером суперкомпьютеров", так как он позволяет обходиться относительно недорогими кластерами. Судя по всему, корпоративный рынок Больших данных выглядит ну очень привлекательно, и ради него Cray даже готова пожертвовать рядом корпоративных принципов.

Одним из первых заказчиков Yarcdata стало крупное силовое ведомство. Сферу его интересов -- семантический шпионаж реального времени -- несложно понять по техническим характеристикам uRika, которая будет запущена на аппаратуре Cray: с 0,5 петабайтным расшаренным ОЗУ и восемью тысячами процессоров, которые обеспечат миллион рабочих потоков (128/процессор). В основу uRika заложено, в частности, опенсорсное решение Jena, выведенное этим апрелем из инкубатора Apache в top-level проект.

Jena -- это Java-фреймворк, предназначенный для построения и анализа семантических сетей, работы с онтологиями, выявления скрытых взаимосвязей в огромных массивах сырых данных. Представление информации в виде графов существенно упрощает задачу интеграции данных из множества источников (корни технологии явно уходят в Informatica). А миллион тредов нужен, чтобы максимально сократить время отклика: то есть создается мега-масштабная аналитическая система жесткого реального времени -- дабы отслеживать интересующие события виртуального и реального мира, собираемые из кучи источников, спустя доли секунды.

Этот проект, кстати, показательный пример того, как надо бороться с интернет-преступлениями. Принятие законов о всяческих интернет-запретах -- это демонстрация безграмотности власти законодательной и бессилия власти исполнительной, результатом их будут единичные показушные дела (точно как с коррупцией), где десяток виновных будет найден вручную с помощью яндекса, и всё. Ловля злоумышленников в Сети должна вестись тотально, непрерывно и в автоматическом режиме с применением самых передовых ИТ.

Кстати, возможность обращения к объемным графам и семантическим сетям с помощью стандартизованного SPARQL на рынке Big Data будет предложением уникальным, несмотря на активность в этой сфере самых известных ИТ-гигантов. Однако инженеры Yarcdata пока явно не справляются с масштабом задач, потому что в июне объявили конкурс YarcData Graph Analytics Challenge с нехилым призовым фондом в 100 тыс. долл. Если вы хорошо разбираетесь в графах, RDF и SPARQL, можете поучаствовать: yarcdata.com/graph-analytic-challenge.html.