Журнал Системный Администратор, Октябрь 2005

Журнал Системный Администратор

Октябрь 2005

Цена: $4.5 US

  Подписаться

Зарегистриванные пользователи, пожалуйста следуйте этой ссылке


Как управлять индексированием своего сайта

Сергей Яремчук

Современные поисковые машины являются мощным инструментом, но с их помощью можно получить информацию, которую администратор предпочел бы не выставлять на всеобщее обозрение. Используя методы, позволяющие указать поисковым роботам на те части сайта, которые действительно нуждаются в индексации, можно избежать ряда проблем.

Согласно статистике, как минимум половина пользователей каждый день пользуются услугами поисковиков. И вполне естественно, что, желая с максимальной точностью удовлетворить запрос пользователя, разработчики постоянно совершенствуют алгоритмы работы своих поисковых роботов. Это привело к тому, что сегодня при помощи определенных запросов можно получить информацию, которую веб-мастер предпочел бы скрыть. Здесь и страницы сайта, позволяющие обойти обязательный вход по паролю или позволяющие любому пользователю беспрепятственно создать свой почтовый ящик на закрытом корпоративном сервере. Не говоря уже о доступе к конфиденциальным данным и программам, а также к различным устройствам (принтерам, веб-камерам и пр.). Взлом при помощи поисковых сервисов давно пользуется большой популярностью и к тому же не требует серьезной подготовки нападающего. Конечно, он имеет определенный элемент вероятности, но кто знает, вполне возможно, что вскоре именно ваш сайт окажется в выданном списке под номером один. Но самое интересное, что уже давно разработаны методы, которые позволяют указать поисковым машинам на страницы или места сайта, которые не нуждаются в индексации. Это мета-теги и файл robots.txt, и если робот или сканер работает по правилам, то технологические страницы сайта не попадут под индексацию. Если о первом начинающим веб-мастерам еще говорят на курсах и пишут в книгах, то наличие второго сохраняется в тайне. Поэтому увидев в журнале веб-сервера запись о том, что запрашивался отсутствующий файл robots.txt (“GET /robots.txt HTTP/1.0” 404), администратор в панике бросается за советом на форумы. Сегодня этот файл используют приблизительно 5-6% сайтов. В остальных он либо совсем отсутствует, либо имеется, но с пустыми параметрами. Хотя вполне вероятно, большинству сайтов действительно нет нужды в ограничениии доступа, но на серьезных проектах такой возможностью пренебрегать просто опасно. После того как робот пройдется по каталогу cgi-bin, точно можно ждать гостей. Но обо всем по порядку.

Оставшая часть статьи доступна только подписчикам. Если вы желаете продолжить чтение этой статьи, то вам необходимо подписаться на эту статью или весь номер.

Подписаться на весь номер

Зарегистриванные пользователи, пожалуйста следуйте по этой ссылке


hnxf
2008-03-28 12:00:22


вонвн
2008-03-28 12:00:46

av5.com