Технология архивирования неструктурированного контента снимает проблему соответствия законодательным требованиям, но остается чересчур закрытой

Системы CAS (content-addressed storage - хранение неструктурированного контента) появились на рынке именно тогда, когда организации пытались справиться с очередной проблемой - нужно было обеспечить строгое соответствие новым законодательным требованиям к хранению и защите информации. Частный характер только что появившейся технологии воспринимался в те времена как неизбежное зло, которым приходилось расплачиваться за юридическую защищенность компаний.

Но все течет, все меняется...

За прошедшие годы системы CAS различных производителей научились "разговаривать" друг с другом, была улучшена их совместимость между собой и с другими приложениями. Тем не менее все это делалось в частном порядке, а стандарта, который упростил бы совместное использование данных разными приложениями и средствами хранения, до сих пор нет, хотя сейчас его необходимость ощущается остро, как никогда раньше.

Технология хранения неструктурированного контента появилась на сцене в 2002 г. Она обеспечивала и поиск информации в хранилищах, и ее защиту, благодаря чему ИТ-менеджеры могли обеспечить соответствие своих архивов множеству законодательных требований. Наиболее известной реализацией данной технологии следует, видимо, признать систему Centera корпорации ЕМС. Эта компания вышла на рынок и с тех пор служит эталоном для других производителей подобных систем.

Так что же такое хранилище неструктурированного контента? Это - интеллектуальный репозиторий, используемый для хранения и защиты различной деловой информации, включая офисные документы и сообщения электронной почты. Решения CAS с успехом могут применяться практически во всех организациях, но в полной мере их достоинства проявляются там, где приходится иметь дело с конфиденциальными документами - медицинскими карточками пациентов, финансовой отчетностью, сообщениями электронной почты.

При хранении неструктурированного контента каждый файл получает уникальный идентификатор, с помощью которого менеджеры ИТ могут контролировать неизменность содержания конфиденциальных документов и следить за путями их движения в "безбумажном" офисе. А ведь и то и другое уже стало непреложным условием документооборота во многих отраслях.

Решения для хранения неструктурированного контента CAS создаются на базе типового (но особым образом доработанного) оборудования. Их главная особенность - ПО, связывающее узлы CAS друг с другом, защищающее деловую информацию и обеспечивающее оперативный поиск нужных данных.

Когда свободное пространство хранения иссякает, емкость CAS-системы можно повысить подключением дополнительных модулей.

Механика хранения неструктурированного контента

Как только документ поступает в систему CAS, ему сразу присваивается уникальный идентификатор, рассчитанный на основе хеш-значения контента. Если приложение или пользователь попытается еще раз записать сюда этот же документ, система обнаружит дублирование идентификаторов и оставит указатель в прежнем положении. Другими словами, она не станет заново записывать содержимое документа, чтобы не тратить время и ресурсы. Когда же создается новая версия уже имеющегося документа, ей присваивается другой идентификатор (также уникальный), после чего в хранилище заносится новый файл.

Источник: eWeek Labs.

Решения CAS способны импортировать контент из

разнообразных источников данных      

Место контентной адресации в общей картине хранения

Другой важнейшей особенностью систем с контентной адресацией является возможность быстрого поиска в репозиториях. Данные здесь хранятся не на магнитных неудобных в работе лентах, а в массивах жестких дисков, благодаря чему ревизору не составляет труда очень быстро найти нужные данные. Значимость такого аспекта трудно переоценить, поскольку оперативность извлечения информации предусматривается очень многими законодательными требованиями.

Производители систем CAS предлагают ИТ-менеджерам два способа переноса данных в свои хранилища - с серверов файлов и из приложений. В первом случае на помощь приходит поддержка CIFS (Common Internet File System), NFS (Network File System) и других распространенных протоколов, которую обеспечивает большинство хранилищ неструктурированного контента. Благодаря этому перевод информации с файл-сервера в хранилище CAS никакого труда не составляет.

Гораздо сложнее наладить взаимодействие таких хранилищ с приложениями. Чтобы помочь своим клиентам решить эту задачу, производители решений CAS публикуют открытые интерфейсы API, посредством которых разработчики приложений могут обеспечить связь своих программ с системами хранения неструктурированного контента. Вот только каждый производитель CAS-систем предлагает собственный набор API, и разработчикам всякий раз приходится адаптировать под них свои приложения.

Когда информация поступает в хранилище CAS, для каждого ее элемента назначается уникальный идентификатор. Он рассчитывается по хеш-значениям архивированных данных и в целях безопасности сохраняется в репозитории. Поскольку идентификатор жестко привязан к контенту, любые изменения в содержании документа приводят к созданию нового идентификатора.

К сожалению, единого стандарта генерации уникальных идентификаторов не существует, поэтому для хеширования производители используют различные протоколы. ЕМС, скажем, применяет для этой цели MD-5, тогда как Hewlett-Packard для своего решения StorageWorks RISS 1.4 (Reference Information Storage System) избрала протокол SHA-1.

Еще один не слишком приятный аспект CAS-продуктов связан с заказным характером аппаратных средств, причем скорого решения этой проблемы не предвидится. Хотя на физическом уровне никакого экзотического оборудования здесь не требуется - используются, как правило, обычные серверы и средства хранения, - клиент тем не менее оказывается накрепко привязанным к конкретному производителю. Когда нужно увеличить пространство хранения или производительность системы, ИТ-менеджер вынужден приобретать дополнительные компоненты у той компании, которая поставила ему хранилище CAS, - с помощью широко распространенного и дешевого оборудования сделать это невозможно. Взять, к примеру, уже упоминавшуюся RISS 1.4 компании Hewlett-Packard: потенциал масштабирования этой системы огромен, но только при использовании специализированных модулей SmartCell.

С учетом всех приведенных оговорок становится совершенно ясно, что торопиться с реализацией хранилища CAS не стоит, так как системы архивирования и хранящиеся в них данные смело можно назвать долгосрочным вложением капитала.

Спасение в море стандартов

И все же, несмотря на все свои недостатки, технология контентной адресации выглядит весьма многообещающе. Главное, что она намного упрощает выполнение множества законодательных требований, которым должны отвечать сегодня компании. И специалисты из eWeek Labs с радостью следят за появлением стандартов такого рода, пусть даже они пока затрагивают лишь перенос данных из приложений в хранилища CAS.

В этом направлении, в частности, работает Ассоциация индустрии сетевого хранения (SNIA), которая активно разрабатывает технологию XAM (Extensible Access Method). Этот интерфейс к системам хранения данных призван стандартизировать обмен информацией между приложениями и решениями CAS, избавив программистов от необходимости пользоваться частными API различных фирм.

Спецификация XAM предусматривает применение метаданных, с помощью которых приложение может сообщить устройствам CAS, как долго нужно хранить пересылаемую информацию и на каком уровне должна быть обеспечена безопасность контента.

Комплект разработки ПО на основе ХАМ должен появиться уже в нынешнем году (см. статью "SNIA pushes Extensible Access Method" на сайте eweek.com).

Обнадеживающие известия начинают поступать и из программной области. Как уже отмечалось, решения с контентной адресацией в принципе не требуют специализированного оборудования, поэтому сейчас наметилась тенденция создания программных решений CAS, не привязанных к конкретным аппаратным средствам. По этому пути, скажем, идет начинающая фирма Caringo (www. caringo.com), основатель которой Пол Карпентьер ранее разработал базовую технологию для EMC Centera.

Важно отметить, что по большому счету долговременное управление контентом представляет собой комплексную проблему, которая выходит далеко за рамки мира хранения данных. Для ее решения необходимо наладить самое тесное сотрудничество между командами разработчиков приложений и администраторами систем хранения.

С точки зрения управления жизненным циклом информации документы и другие формы контента создаются с помощью самых разных приложений, а заканчивают свой путь чаще всего в архивных хранилищах, будь то библиотеки магнитных лент, оптические диски или системы с контентной адресацией. Многие приложения при этом не имеют доступа к общим репозиториям данных, и ИТ-менеджерам приходится тратить массу сил на управление информацией из различных источников.

Систему с контентной адресацией можно довольно легко и быстро реализовать для решения ограниченного круга задач, например для архивирования документов или сообщений электронной почты. Но когда речь заходит о всеобъемлющих корпоративных архивах, мы посоветовали бы менеджерам ИТ сначала провести тщательный анализ используемых приложений и лишь после этого приступать к выбору подходящего решения CAS. Прежде чем начинать развертывание, например, желательно избавиться от всех устаревших приложений и общих файлов, а оставшиеся приложения по возможности консолидировать.

Существует и более широкий стандарт, помогающий консолидировать данные перед их передачей в хранилище CAS. Это - JSR-170 (Java Specification Request), известный также под названием Content Repository API for Java Technology. Эта спецификация предоставляет менеджерам ИТ мощное средство консолидации хранилищ данных, а также помогает упростить и стандартизировать их пересылку между приложениями.

Работа над самим JSR-170 была завершена в июне прошлого года, а на май 2007-го намечено окончание разработки его наследника - JSR-283. Первоначально данный стандарт предназначался только для Java-контента, однако затем вышел за рамки этого языка. В него была добавлена поддержка приложений РНР и .Net, которые также получили доступ в репозитории JSR-170.

Главным и долговременным достоинством стандартов наподобие JSR-170 является высокая гибкость адаптации к любым технологическим изменениям. Благодаря им новые приложения могут подключаться к унаследованным репозиториям, избавляя менеджеров и разработчиков от необходимости жертвовать прежними данными и кодами.

Другое важное достоинство применения JSR-170 - консолидация репозиториев. Зачастую бывает так, что в сети хранится множество версий одного и того же документа (одна, скажем, на сервере файлов, другая - на портале, а третья - в системе управления контентом), и менеджеру не так-то просто в них разобраться. Когда же все сведено в централизованный репозиторий, пользователь может легко и быстро найти самую свежую версию документа, не блуждая по разным хранилищам.

Удобен централизованный репозиторий и с точки зрения управления хранением, так как в такой среде гораздо легче производить резервное копирование данных и управлять ресурсами хранения.

Кроме того, JSR-283 обещает предоставить администраторам лучший контроль над доступом и политикой хранения информации (подробнее эта спецификация описана по адресу www. jcp.org/en/jsr/detail?id=283).

Со старшим аналитиком Генри Балтазаром можно связаться по адресу: henry_baltazar@ziffdavis.com.