ИНТЕРНЕТ

Число документов в Рунете перевалило за миллиард

Участники научного проекта Nigma.ru, интеллектуальной поисковой системы, провели оценку суммарного объема русскоязычных документов в поисковых системах. По состоянию на середину мая 2005 г. в Интернете имелось примерно 1 052 227 229 русскоязычных документов.

Это вторая попытка группы посчитать количество документов Рунета - первая окончилась неудачно, так как предложенный тогда алгоритм не обладал устойчивостью: при изменении некоторых параметров оценка числа документов не колебалась около равновесного решения, а резко изменялась. Новый алгоритм лишен этого недостатка - он основывается на "закачивании" случайных запросов, созданных на базе частотного словаря, и сравнении общего объема выданных результатов со всех поисковых машин, с которыми работает Nigma.ru, и эталонной поисковой машины с известным размером ее базы.

Первоначально устранение дублей происходило по URL и заголовкам документов, однако с использованием частотного словаря во второй версии количество дублей резко сократилось, и сейчас применяется только URL. Если исключить из алгоритма одну из поисковых машин, оценка в среднем падает всего на 12%. Можно предположить, что не более 20-30% документов Рунета осталось непроиндексированными ни одной из поисковых машин, задействованных в проекте Nigma.ru.

Версия для печати