По мере того как Интернет превращается в совершенно непроходимые джунгли из многих десятков миллионов адресов, все большее значение приобретают средства, позволяющие хоть как-то ориентироваться в этом расширяющемся и вот-вот грозящем все захлестнуть хаосе. Создание и поддержка систем поиска становится одним из самых выгодных видов бизнеса в Интернет. В смысле посещаемости они уже составляют здоровую конкуренцию секс-сайтам и скоро, вероятно, отберут у них первенство, а вместе с ним и доходы от большей доли рекламы, распространяемой через Интернет.

 

Нынешние поисковые средства многочисленны и разнообразны. Их число составляет около двух с половиной сотен, однако для серьезной работы пригодны лишь несколько десятков признанных лидеров сетевого поиска. К наиболее популярным принадлежат AltaVista, HotBot, OpenText, Magellan, Excite, Lycos и WebCrawler (см. обзор в PC Week/RE, № 10/97, с. 22).

 

До начала прошлого года в их число входил и InfoSeek. Однако в последнее время он начал явно сдавать свои позиции. Главным образом это происходило из-за недостатков поискового механизма. Отсутствие хорошей программы-робота и, как следствие, скудный объем базы данных и весьма скромные возможности формирования запроса приводили к тому, что InfoSeek вытеснялся более свежими и соответственно более мощными соперниками. Не желая уступать конкурентам доходы от рекламы, InfoSeek Corporation решилась на коренную структурную реорганизацию.

 

После полугода работы система фактически разделилась на две части: справочную и поисковую. Справочная получила название UltraSmart (сверхумная), а поисковая соответственно -UltraSeek (сверхпоиск). Поэтому сегодня, набирая привычный адрес http://www.infoseek.com, пользователь сразу попадает в справочник UltraSmart, внизу которого есть ссылка на поисковую систему, т. е. на UltraSeek.

 

В справочнике, кроме названия, мало что изменилось. Он по-прежнему имеет разветвленную иерархическую структуру, позволяющую осуществлять поиск информации по отдельным отраслям и темам. Его классификация по праву считается одной из самых логичных в Интернет. Выборочная проверка ссылок показала, что справочник не столь оперативно обновляется -некоторые из отражаемых материалов уже сменили адрес. Этим, однако, в той или иной степени страдают все подобные системы.

 

Более серьезной перестройке подвергся поисковый механизм. Он выделен в самостоятельную “службу”, которая уже не является частью справочника. Создан новый поисковый робот на базе восьмипроцессорного Sun Microsystems Ultra Enterprise 4000 с 2 Гб оперативной памяти. По утверждениям разработчиков, это далеко не предел, и они планируют довести оперативную память до 14 Гб. Столь мощное аппаратное обеспечение уже сейчас позволяет обрабатывать до 1000 полнотекстовых запросов в секунду, поэтому UltraSeek относится к числу самых быстрых поисковых систем Интернет (к сожалению, из России это не всегда заметно). Дисковое пространство составляет примерно 400 Гб. Это сразу позволило кардинально расширить объем базы данных, доведя ее более чем до 50 млн. страниц в полнотекстовом режиме. Этот показатель превышает аналогичный в Alta Vista (более 31 млн.) и почти равен HotBot (54 млн.).

 

Помимо объема базы данных, для поисковых систем последнего поколения огромное значение имеют возможности формулировки запроса. Этим по сути определяется степень максимальной точности запроса в сочетании с легкостью его формирования. В этом смысле UltraSeek не привнес революционных изменений, однако его возможности встали на уровень современных поисковых средств.

 

Разработчики не пошли по пути создания многоступенчатого меню, используемого OpenText и HotBot, предпочтя традиционную форму составления поискового предписания, когда все необходимые термины и операторы заносятся в одну строку запроса. Поисковый синтаксис UltraSeek, т. е. набор команд (операторов) для указания отношений между вводимыми терминами, относительно прост и в то же время достаточен для формирования точного запроса.

 

Система чувствительна к употреблению заглавных и строчных букв и способна самостоятельно вычленять имена собственные, будь то имена людей или названия организаций, если они написаны с заглавных букв. Усечения окончаний не допускается, однако морфологический механизм UltraSeek способен самостоятельно трансформировать английские термины типа mouse -mice. Поисковое пространство можно ограничить названием страницы или ее адресом.

 

Пожалуй, единственное, что не предусмотрено в механизме составления запроса, -это указание на выявление терминов, стоящих в тексте на небольшом удалении друг от друга. Эта функция, реализованная, в частности, в Alta Vista и WebCrawler с помощью оператора NEAR, в значительной степени повышает релевантность результатов за счет отсеивания документов, в которых искомые слова стоят в разных частях текста.

 

“Интеллектуальный уровень” системы во многом определяется тем, насколько точно, взвешенно и комфортно для пользователя она выдает результаты поиска. UltraSeek обладает достаточно развитым механизмом выдачи найденных ссылок. Их перечень располагается в порядке релевантности запросу, при этом система искусственного интеллекта показывает в процентах уровень соответствия. Вывод об этом делается на основании количества и местонахождения искомых лексических единиц в документе. Так, термин в названии страницы или в заголовке имеет больший вес, чем просто в тексте, а документ, где ключевое слово употреблено многократно, имеет приоритет по сравнению с источником, где то же слово встречается лишь один или два раза.

 

UltraSeek предоставляет также ряд мелких услуг, которые являются побочными продуктами деятельности поискового робота. Например, можно узнать, сколько ссылок на конкретную страницу содержится в WWW, т. е. насколько она популярна, или же, наоборот, выяснить, сколько ссылок на внешние страницы имеется на данном узле. Примечательна возможность поиска в Интернет логотипов и изображений по различной тематике. Для этого в режиме ImageSeek вводится обозначение предмета, и система выдает соответствующие “картинки”. Например, на запрос “football” было выдано 36 фотографий, на которых запечатлены моменты этой игры. Все перечисленные функции реализуются через специальное меню, расположенное слева от основной строки запроса.

 

InfoSeek обладает некоторыми функциями, выходящими за рамки обычной поисковой системы, что делает его персональным информатором в Сети для пользователей с различными потребностями, который регулярно оповещает их о новостях по заявленной тематике. Опция News Center позволяет подписаться на эту услугу, предоставляемую пока совершенно бесплатно (при этом каждый подписавшийся получает свой персональный login и пароль). Другой пункт меню -Smart Info -содержит ссылки на различные справочные ресурсы Интернет: например, Вэбстеровский словарь, тезаурус Роже, календари предстоящих событий, инструмент поиска персональных электронных адресов Four11, справочник промышленных компаний, интерактивные карты городов США, телефонные книги, указатели почтовых индексов и многое другое. За счет этого InfoSeek превращается в неплохую отправную точку для любых действий, связанных с поиском информации. Эти сервисные возможности конечно же добавляют ценности всей системе и заметно повышают ее рейтинг по сравнению с “простыми” поисковыми механизмами.

 

UltraSeek имеет дружественный интерфейс, поэтому работать с ним достаточно просто. Система помощи написана доступным языком и снабжена наглядными примерами. При получении нулевых результатов система подсказывает возможные ошибки и пути их устранения.

 

Большинство систем последнего поколения допускают поиск материалов на любом языке, включая русский. UltraSeek также обладает этой способностью, однако тесты показали, что он ориентирован прежде всего на отражение содержания американских узлов. Европейские, и в частности российские, серверы индексируются слабо. У автора есть подозрение, что зарегистрированы только узлы, Web-мастера которых самостоятельно заявили UltraSeek о своем существовании. Скорее всего, такая политика носит временный характер, поскольку подобная скрытая дискриминация не позволит сделать систему действительно международной, ограничив ее значение Северо-Американским континентом. В пользу этого свидетельствует также то, что InfoSeek приступила к созданию зеркальных серверов в Англии и Японии.

 

Проведенный анализ дает основания утверждать, что InfoSeek Corporation сделала серьезную заявку на то, чтобы попасть в группу сильнейших поисковых служб Интернет. Хотя ей не удалось стать лидером, рейтинг системы заметно повысился.

 

Направления проведенной реорганизации отражают общую тенденцию развития поискового сервиса в Интернет. В условиях жесткой конкуренции между поисковыми службами клиента, не связанного с конкретной системой никакими обязательствами, можно привлечь только постоянным повышением качества работы. Рост объема базы данных, возможность все более точного составления запроса (точность в условиях информационного взрыва особенно важна), создание сервисных функций, организация региональных “зеркал” -все это черты общей эволюции поисковых средств.

 

InfoSeek Corporation сказала здесь свое слово. Остается ждать, чем ответят конкуренты. Уверен, ожидание не будет долгим.

 

         Вадим Степанов

 

     С автором можно связаться по адресу: stepanov@shpl.ru.

 

Большинство систем последнего поколения допускают поиск материалов на любом языке, включая русский. UltraSeek также обладает этой способностью, однако тесты показали, что он ориентирован прежде всего на отражение содержания американских узлов