Иван Максимов
Большинство из вас каждый день пользуется поисковыми машинами в
Интернете. Какие они изнутри? Чем они отличаются?
Разные компании, разрабатывающие поисковые движки, пытаются занять ниши на
рынке, кто-то совершенствует пользовательский интерфейс, другие заботятся о
скорости работы и функциональности, третьи пытаются охватить все популярные
платформы, а другие собирают все перечисленные возможности. Некоторые
разработчики поисковых движков не выдерживают конкуренции и выходят из борьбы,
иные переходят частично или полностью на «коммерческие рельсы». Надеюсь, обзор
прольет свет на некоторые проекты, продемонстрирует их преимущества и
недостатки в различных задачах.
Задача. Файловый сервер
В сети имеется файловый сервер под управлением ОС Linux. Для совместимости с
различными задачами на сервере установлены популярные пакеты samba и proftpd.
Количество документов – около 2 тысяч (занимаемый размер на диске примерно 1,5
Гб), различных форматов (txt, html, doc, xls, rtf), используется файловая
система reiserfs (3-я версия). Отмечу, что большая часть документов (около
80-85%) состоит из форматов MS Excel (xls) и MS Word (doc). Аппаратное
обеспечение файлового сервера: AMD Athlon 2500+, 512 DDR 3200 (DUAL), HDD 160
Гб WesternDigital SATA (8 Мб кэш, 7200 оборотов). Именно этот документооборот
мы и будем индексировать. Возможно, кто-то задастся вопросом: «Мы рассматриваем
движки поисковых машин, почему бы не тестировать их на реальных внешних
ресурсах, например на www.samag.ru?» Сделано
это для того, чтобы максимально не зависеть от пропускной способности канала.
Поисковые машины будут устанавливаться на практически идентичную машину,
расположенную в данной сети. Пропускная способность локальной сети 100 Мб (half
duplex).
Все движки будут тестироваться с максимально
едиными условиями, но все же отличными. Связано это с тем, что разные движки
обладают различным функционалом, инструментарием, некоторые иногда в чем-то
ограничены (коммерческие версии). В конце обзора каждого движка будут даны
примерные сравнительные характеристики.
Итак, приступим к обзору, установке,
конфигурированию и сравнению движков.