НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Опережаем Сноудена

Как АНБ работает с Большими данными.

[spoiler]Как Агентство национальной безопасности США работает с Big Data, известно достаточно давно. В основе её системы распределённый движок БД BigTable, который тянет обработку петабайтов структурированных данных, и о котором его создатели из Google рассказывали ещё в 2006 г.

Он был дополнен технологиями Hadoop и позже (в 2008-м) передан в фонд Apache под названием Accumulo. Кстати, развивается этот проект весьма активно:)

Зачем АНБ понадобилось создавать собственный NoSQL-движок? Его отличия от той же BigTable, собственно, прежде всего в фишках обеспечения хорошей безопасности, многоуровневых уровнях допуска, итд. Интересна возможность разграничения доступа к отдельным полям документам (полям записи). Впрочем, все они теряют смысл, когда инсайдер появляется на организационном уровне. Кстати, сказки про мифическую мощь АНБ, которая якобы следит за каждым человеком в Сети, это откровенная лапша: по данным Cisco, объем мирового интернет-трафика в сутки сегодня уже превысил один экзабайт, и никакие современные технологии не способны его даже поверхностно проанализировать.

А вот с петабайтными объёмами Accumulo работает шустро, показывая на кластерах разумного размера скорость, близкую к реальному времени -- например, в процессе поиска в базе э-писем по ключевыми словам. Достигается это за счёт так называемых «итераторов» -- программных агентов, которые постоянно копаются в БД в поисках паттернов, существенно ускоряя типовые запросы.
Из Accumulo агрегированные данные поступают в BI-инструментарий. Это всевозможные средства визуализации зависимостей -- в частности, используется Palantir Graph:


Схожие технологии применяются всеми ИТ-ведущими под гигантские объёмы.
Google Knowledge Graph вырос из купленных в 2010-м разработчиков открытой Freebase.
Microsoft Satori развился из экспериментальной графической СУБД Trinity.
А самый мощный на сегодня, это пожалуй Facebook Graph Search, семантический поисковик, запущенный в марте 2013-го.

И вот тут начинается самое интересное.

продолжение следует