Сергей Яремчук
Современные поисковые машины являются мощным инструментом, но с их
помощью можно получить информацию, которую администратор предпочел бы не
выставлять на всеобщее обозрение. Используя методы, позволяющие указать
поисковым роботам на те части сайта, которые действительно нуждаются в
индексации, можно избежать ряда проблем.
Согласно статистике, как минимум половина пользователей каждый день
пользуются услугами поисковиков. И вполне естественно, что, желая
с максимальной точностью удовлетворить запрос пользователя, разработчики
постоянно совершенствуют алгоритмы работы своих поисковых роботов.
Это привело к тому, что сегодня при помощи определенных запросов
можно получить информацию, которую веб-мастер предпочел бы скрыть. Здесь
и страницы сайта, позволяющие обойти обязательный вход по паролю или
позволяющие любому пользователю беспрепятственно создать свой почтовый ящик на
закрытом корпоративном сервере. Не говоря уже о доступе к конфиденциальным
данным и программам, а также к различным устройствам (принтерам,
веб-камерам и пр.). Взлом при помощи поисковых сервисов давно пользуется
большой популярностью и к тому же не требует серьезной
подготовки нападающего. Конечно, он имеет определенный элемент вероятности,
но кто знает, вполне возможно, что вскоре именно ваш сайт окажется
в выданном списке под номером один. Но самое интересное, что уже
давно разработаны методы, которые позволяют указать поисковым машинам на
страницы или места сайта, которые не нуждаются в индексации. Это мета-теги
и файл robots.txt, и если робот или сканер работает по правилам,
то технологические страницы сайта не попадут под индексацию.
Если о первом начинающим веб-мастерам еще говорят на курсах и
пишут в книгах, то наличие второго сохраняется в тайне. Поэтому увидев
в журнале веб-сервера запись о том, что запрашивался
отсутствующий файл robots.txt (“GET /robots.txt HTTP/1.0” 404),
администратор в панике бросается за советом на форумы. Сегодня этот файл
используют приблизительно 5-6% сайтов. В остальных он либо совсем
отсутствует, либо имеется, но с пустыми параметрами. Хотя вполне
вероятно, большинству сайтов действительно нет нужды в ограничениии доступа, но
на серьезных проектах такой возможностью пренебрегать просто опасно. После того
как робот пройдется по каталогу cgi-bin, точно можно ждать гостей.
Но обо всем по порядку.