ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ

Как найти в Сети то что нужно

Смысл и цели поиска. Объем содержимого Интернета удваивается каждые два месяца, а человек способен воспринимать не более 150 страниц дайджестов в час - отсюда очевидна потребность в средствах автоматизации поиска и отбора нужных материалов. Соответствующие программы на рынке имеются, но они пока обладают существенными недостатками. Дело в том, что из огромного количества академических исследований очень сложно выбрать наиболее подходящие для реализации в прикладном продукте. В этих исследованиях обычно сочетаются технологии нейронных сетей, разбора текста на базе правил, специализированные статистические методы. Все они подразумевают возможность самообучения системы.

Развитие продуктов для автоматизации работы с Интернет- и корпоративным содержимым наиболее активно будет идти по следующим направлениям:

- выделение смысла путем анализа лингвистических характеристик текста;

- определение тематики материала (к какой группе из списка заданных документ относится - политике, программированию, спорту и т. д.);

- отбор требуемой информации с помощью сложных смысловых фильтров;

- составление аннотации документа;

- подбор максимально подробной информации на заданную тему (задача, противоположная некоторым предыдущим: надо не дайджест подготовить, а отобрать хорошие статьи, которые помогут в работе аналитиков, ученых, других узких специалистов);

- кластеризация документов (составление виртуальных библиотек);

- формирование смысловых связей между документами;

- визуальное представление дерева документов.

Примеры. Программа Data Extractor (www. dataextractor.com) компании DogHouse Enterprises стоимостью 99 долл. поддерживает довольно много форматов данных, из которых выделяет подлежащий разбору текст и достаточно эффективно выполняет работу по анализу смысла, но не содержит библиотеки разработчика и не позволяет пользователям расширять его возможности.

Продукт NQL (www.nqli.com) одноименной компании стоимостью 2500 долл. представляет собой гибкий язык запросов, ориентированный на обработку Интернет-контента. Он реализован в виде библиотек, легко встраивается в программы и дает возможность создавать сколь угодно сложные системы поиска и обработку текста с использованием многих популярных технологий. Язык поддерживает режим параллельного выполнения и обработку запросов с мобильных устройств. Недавно выпущена версия NQL Java Edition для Linux (ранее NQL существовал только для Windows). К недостаткам NQL относится, пожалуй, только высокая цена.

Напоминает идеологию NQL язык программирования REBOL (www.rebol.com) фирмы Rebol Technologies. Его базовая версия свободно доступна на сайте, а вариант с графическим интерфейсом стоит 249 долл. Немаловажное преимущество REBOL - поддержка 40 платформ, недостаток - незрелость (новые версии выходят практически каждый месяц).

Продолжает серию встраиваемых систем написанный на Java скрипт-язык Web Language (http://research.compaq.com/SRC/

WebL/) корпорации Compaq, распространяемый в исходных текстах. Работа с ним требует хороших навыков программирования, и со временем Compaq собирается сделать из него коммерческий продукт.

На первый взгляд неплохими возможностями обладает система WWW Wrapper Factory (www.tropea%2Dinc.com/technology/W4F/) фирмы Tropea стоимостью 995 долл. Она представляет собой простую в использовании библиотеку разработчика, но перспективы ее развития пока неясны.

Альянс “Кислород”

Компании Acer, Delta Electronics, Hewlett-Packard, Nippon, Nokia и Philips совместно с массачусетским технологическим институтом MIT получили от военного научного агентства DARPA грант в размере 50 млн. долл. и сформировали на эти деньги альянс под названием “Кислород”. Его цель - создать архитектуру бесплатно распространяемых компьютеров с дружественным интерфейсом. Для упрощения общения компьютера и человека отобраны три “железные” и пять программных технологий.

Самая простая модель бесплатного компьютера называется Handy 21. Она имеет формат А2, и помимо вычислительного устройства в нее будут добавлены сотовый телефон, радиопередатчик, приемник ТВ- и GPS-сигналов. Следующая модель - Enviro 21 - предназначается для встраивания в стены домов и автомобили. По функциональным возможностям она аналогична Handy 21, но обладает значительно большими вычислительными мощностями. В качестве процессора предполагается использовать специализированный чип, создаваемый в рамках проекта Raw (рабочая станция с перенастраиваемой архитектурой). Enviro 21 планируется использовать для организации интеллектуального управления городскими инфраструктурами.

Все эти компьютеры будут связаны друг с другом и с Интернетом по сети N 21. Они смогут самостоятельно настраивать ПО для конкретной задачи и автоматически обновлять новые версии используемых программ.

Проект “Кислород” должен позволить людям общаться с кибернетическими устройствами на естественном языке - с помощью систем распознавания речи и понимания смысла. Появление рабочего прототипа “кислородных” компьютеров обещано в конце 2000 г.

DARPA финансирует и другие подобные проекты. Над одним из них, например, трудятся IBM и Intel.

Версия для печати