Фирма CompTek сообщает об открытии новой поисковой машины, которая
использует механизм Яndex-Web. Областью поиска являются Web-
серверы, в том числе - стран СНГ.
Яndex-Web представляет собой естественное развитие программных
продуктов серии Яndex (Яndex-Site, Яndex-CD, Яndex-Dict, Яndex-
Lib). Как и все Яndex-системы, Яndex-Web является полнотекстовой
поисковой системой с учетом морфологии русского и английского
языка.
В отличие от популярной морфологической надстройки к поисковой
системе AltaVista (http://www.comptek.ru/alta.html), Яndex-Web
является полностью оригинальной разработкой CompTek.
В настоящий момент робот (сетевой паук) каждую неделю обходит 5
тысяч серверов (около 4 Гбайт текстов), и список серверов
постоянно пополняется. При индексировании проверяется уникальность
документов - это значит, что, если документ существует в
нескольких кодировках и/или на нескольких зеркалах, в списке
найденного он будет указан один раз (и, соответственно, один раз
учтен в статистике).
Алгоритмы морфологического разбора, основанные на грамматическом
словаре, умеют нормализовать слова, то есть находить их начальную
форму. Для неизвестных Яndex'у слов строится гипотетическая
словарная статья, позволяющая обрабатывать (анализировать и
синтезировать) такие слова аналогично известным.
Язык запросов (как и в других продуктах Яndex), помимо стандартных
логических операторов (И, ИЛИ), включает оператор исключения (И
НЕ), а также позволяет осуществлять поиск внутри абзаца, внутри
документа, в заголовках и других полях, а также с указанием
расстояния между словами. В дополнение к обычной практике Яndex -
нормализации слов при индексации и поиске, реализован также запрос
по точной словоформе.
Найденные документы отсортированы по релевантности, которая
учитывает не только "контрастность" слова, то есть его
относительную частоту для данного документа, но и расстояние между
словами, и положение слова в документе.
Яndex-Web при индексировании запоминает позицию слова в документе,
что дает возможность не только искать "с расстоянием", но и
выделить (подсветить) слова, найденные в тексте. Если документы
были изменены после индексирования, выдается соответствующее
предупреждение.
Поисковая машина Яndex-Web открыта на сервере http://yandex.ru, ее
презентация состоится в четверг, 25 сентября в 16.00, на выставке
Softool на стенде фирмы CompTek.
Источник: ROL News Agency
|