Обучение работе с персональным компьютером



Все документы HTML и не только, представляют собой файлы и папки, в которых они хранятся на сервере. Для их индексации поисковые системы присылают своих роботов, которые забирают информацию о вашем сайте и передают ее в базу поисковиков. В дальнейшем, обработанная информация с учетом соответствующих запросов, выдается пользователям сети Интернет. На любом сайте помимо информации для общего пользования хранится служебная информация, которая не должна попадать под индекс поисковых роботов. Для того, чтобы контролировать процесс индексации, существует файл robots.txt. С его помощью, веб-мастер задает разрешения или запреты индексирующим роботам.

 

Алгоритм роботов настроен таким образом, что приходя на ваш сайт, они первым делом отправляются искать файл robots.txt, для получения инструкций и указаний по индексации ресурса. В случае отсутствия этого файла, сайт будет проиндексирован полностью, включая служебные файлы. К служебным файлам и папкам, можно отнести различные скрипты, архивы, административные директории и т.д. Для управления этим механизмом, существует ряд инструкций, благодаря которым и осуществляется контроль над индексирующими роботами различных поисковых систем. Теперь, давайте рассмотрим структуру файла robots.txt. Каждая строка в файле начинается с записи User-agent или Disallow.
Пример:


 User-agent: *
 Disallow: /

В примере выше показан полный запрет на индексацию сайта. В поле User-agent происходит обращение к клиентским приложениям, в данном случае - это индексирующие роботы. Звездочка, обозначает, что обращение происходит ко всем без исключения роботам. Слеш (косая черта) в поле Disallow указывает на все содержимое сайта. Существуют другие варианты. В поле User-agent можно обращаться к конкретному индексирующему роботу, а в поле Disallow, указывать файл или папку, запрещенную к индексации.
Пример:


 User-agent: Yandex
 Disallow: /index.html

 User-agent: googlebot
 Disallow: /images/

Где в первом случае происходит обращение к роботу Yandex, на запрет индексации файла index.html, а во втором, к роботу Google на запрет индексации папки images и ее содержимого. Есть небольшая разница между запретом файла и папки. Если вы запрещаете к индексации файл, то в конце записи пишется только расширение файла, например, .html, .php, .pdf и т.д., слеш (косая черта) не ставится. Для запрета к индексации папки и ее содержимого, в конце названия этой директории ставится слеш (/). Эта косая черта указывает на содержимое директории. Нельзя прописывать в одном поле несколько директив.
Пример:


 #
 # Это не правильно!!!
 #

 User-agent: googlebot
 Disallow: /images/Java/CSS/

 #
 # Правильная запись.
 #

 User-agent: googlebot
 Disallow: /images/
 Disallow: /Java/
 Disallow: /CSS/

У каждого робота поисковых систем, есть свои особенности. Они выражаются в способности выполнять те или иные инструкции. Например, для робота Yandex существует инструкция по определению зеркал сайта.
Пример:


 User-agent: Yandex
 Disallow:
 Host: www.site.ru

или 

 User-agent: Yandex
 Disallow:
 Host: site.ru

На других роботов она не распространяется. Они ее просто игнорируют. Поэтому, лучше прочитать подробную информацию о поисковом работе и его технических характеристиках на сайте поисковой системы, которой он принадлежит. В поисковых системах Yandex и Google доступны сервисы проверки корректности файла robots.txt. | Служба Яндекса | Гугл веб-мастерам |
С помощью этих служб вы сможете выявить ошибки и вовремя устранить их. От того, насколько правильно вы указали инструкции для роботов в файле robots.txt будет зависеть качество индексации всего веб-ресурса и не только.

Похожие статьи на нашем сайте:


Как просмотреть журналы сервера Как просмотреть журналы сервера При аренде площадки у хостинг-провайдера, он предоставляет клиентам дополнительную возможность в управлении сайтом. К этой дополнительной возможности...
Мета – теги Мета – теги Мета - теги или как их еще называю мета - информация присутствуют в большинстве страниц HTML размещенных в сети Интернет. Они содержат служебную...
Борьба с дублированием контента в DLE Борьба с дублированием контента в DLE Не секрет, что поисковые системы недолюбливают сайты, где много повторяющихся страниц, то есть дублей. Зачастую, к такой ситуации приводит...
Индексация сайта Индексация сайта Каждый из веб-мастеров будь то начинающий или профессионал, после размещения сайта в сети Интернет, сталкивается с индексацией его веб-ресурса...
Жирные ссылки миф Жирные ссылки миф Если вы пришли на эту страницу, то значит, у вас есть сайт, при этом возникла проблема с размещением ссылок на вновь созданный ресурс с других...




Информация
Комментировать статьи на нашем сайте возможно только в течении 90 дней со дня публикации.

Главная | Обратная связь | Статистика

Copyright © 2011-2016 | Персональный компьютер для начинающих пользователей