ОБЗОРЫ

Механизмы систематизации контента помогают находить информацию, облегчают работу с Web-узлами и приложениями

Порталы, системы управления контентом и документами, приложения управления отношениями с клиентами, электронная коммерция и другие корпоративные программные платформы создают огромные объемы данных. Но какой от них прок, если ваш служащий или деловой партнер не сможет найти нужную информацию и тем более если он не сумеет определить, что именно ему нужно?

Помочь в поиске контента способны механизмы систематизации, работающие с разнообразными корпоративными приложениями.

Хороший механизм систематизации анализирует любые данные - Web-страницы, документы Microsoft Word, файлы Adobe Acrobat, динамически генерируемый контент и т. д., а затем распределяет их по категориям. Если это сделано правильно, облегчается поиск, упрощается доступ к информационному содержимому, более эффективными становятся Web-узлы и корпоративные приложения.

Способы систематизации

Несистематизированный контент из различных источников вводится скопом или по мере его создания. Механизм систематизации анализирует содержимое и включает каждый его элемент в одну из категорий. После того как контент полностью классифицирован, его можно передавать в самые разные корпоративные приложения, интегрированные с механизмом систематизации.

Хотя подобные механизмы систематизации могут показаться чем-то доступным только посвященным, пользу они приносят несомненную. Чтобы убедиться в этом, достаточно сравнить популярность Web-узлов, где обеспечен хотя бы простейший поиск контента, с теми, на которых информация не систематизирована. Успех сайта фирмы Yahoo, скажем, во многом объясняется четким распределением его содержимого по категориям - именно это дало ему серьезное преимущество перед конкурирующими системами поиска.

Хотя компании, стремящиеся четко систематизировать информацию, преследуют одну цель, пути к ней могут быть совершенно различными. Самый необычный подход, пожалуй, избрала фирма Applied Semantic при создании механизма Auto-Categorizer 1.1. Этот продукт опирается на массированную онтологию концептуальных значений, связывающую термины и обозначаемые ими понятия.

Auto-Categorizer значительно упрощает определение и коррекцию категорий, а следовательно, систематизацию информационного содержимого. В основу приложения положен язык XML, дополненный мощной поддержкой многих языков сценариев и разработки, благодаря чему Auto-Categorizer легко интегрируется с большинством КИС.

Приложение MetaTagger 3.0 фирмы Interwoven предназначено главным образом для систематизации контента в процессе его создания, в первую очередь в системе управления информационным наполнением TeamSite этой же фирмы. Как и другие продукты, тесно связанные с приложениями такого рода, MetaTagger сам предлагает разработчикам контента возможные категории, которыми те могут воспользоваться при публикации. Впрочем, этот механизм способен систематизировать информацию и вне системы управления контентом. Помогает он создавать и собственную схему классификации.

Наиболее традиционный подход к систематизации контента реализован в Texis Categorizer 4.1 фирмы Thunderstone Software. Для каждой категории здесь предусмотрены своего рода “обучающие комплекты”, позволяющие настроить этот механизм на последовательную (и постоянную) классификацию в конкретной системе. В продукте используются стандартные запросы SQL и сценарии CGI (Common Gates Interface - общий интерфейс шлюза), что упрощает его интеграцию с любым приложением.

Оценить приложения систематизации информационного наполнения можно только одним способом, требующим наличия огромных объемов информации. Чтобы воспользоваться им, мы дали производителям по три комплекта информационного наполнения: один из них содержал информацию университетского учебного курса, второй - правительственные документы, касающиеся здравоохранения и страхования, а третий (самый объемный - более 1000 документов), - заказной контент, созданный аналитиками eWeek Labs.

В этих массивах был представлен самый широкий спектр данных: Web-страницы, файлы Microsoft Word, Excel и PowerPoint, документы Acrobat, обычный текст и мультимедиа. Вместе с тестовым контентом мы передали свои пожелания по схеме классификации и обучающие комплекты. И конечно же попросили не только систематизировать контент, но и описать, как проходил этот процесс. Отметим, кстати, что большинство фирм-производителей, как правило, предлагают клиентам самим определить систематику и предоставляют им обучающие комплекты.

Параллельно мы провели экспертизу продуктов в своем Тестовом центре, для чего обрабатывали с их помощью собственный контент, использовали функции администрирования, создавали файлы сценариев и конфигурации, оценивали возможности интеграции проверяемых продуктов.

С нашими заданиями производители справились весьма успешно, причем ПО каждого из них наглядно продемонстрировало индивидуальные сильные стороны: Auto-Categorizer предельно четко определил категории, MetaTagger блистал при создании контента, а Texis Categorizer поразил тщательностью его категоризации.

Самые интересные различия между продуктами проявлялись в способе достижения конечного результата. Анализ этого аспекта не только выявил разнообразие способов классификации содержимого, но и позволил определить, какая из систем лучше всего подойдет для организации или развернутых в ней приложений.

Предлагаемая вашему вниманию оценка нисколько не претендует на всесторонний охват всех имеющихся средств систематизации. Ее цель скромнее: дать компаниям представление о различных типах таких приложений.

На рынке можно найти множество других подобных продуктов, поскольку свой механизм классификации имеет каждый производитель поисковых систем.

Когда речь идет о систематизации информационного содержимого, нельзя забывать также о приложениях для генерации систематики и управления ими, которые помогают разрабатывать эффективные и четкие схемы организации больших и сложных информационных массивов. Зачастую подобные продукты носят специализированный характер и нацелены на отдельные отраслевые сегменты. Их, в частности, предлагает фирма Saqeware, в каталоге которой можно найти широкий спектр программных средств создания систематик услуг по управлению ими.

С техническим директором на Восточном побережье США Джимом Рапозой можно связаться по адресу: jim_raposa@ziffdavis.com.

Что нужно выяснить при выборе средств систематизации контента

- Есть ли у вас систематика?

- Если нет, поможет ли разработчик приложения создать ее?

- Можно ли интегрировать приложение систематизации с уже развернутыми корпоративными приложениями?

- Предусмотрена ли возможность последующего обновления и коррекции систематики и возможностей структурирования информации?

Версия для печати