Файл robots.txt и его связь с поисковым роботом

Админ

16 октября 2013

SEO

Мы уже неоднократно упоминали в своих материалах об оптимизации сайта о таком файле, как robots.txt. На самом деле его название на все 100% выражает его предназначение и функции. Robots.txt является инструкцией для поисковых машин. При внесении указанного файла в корневую папку ресурса он начинает управлять поведением поисковой системы, в основном налагает запрет на проведение индексации какой-либо определенной части ресурса.

Сам по себе файл robots.txt появился еще в прошлом веке. В середине 1990-ых годов поисковые системы начали серьезно развивать свои умения, что значительно затрудняло работу с ресурсами оптимизаторам и вебмастерам. Это происходило, в первую очередь, по причине того, что поисковые роботы при индексации сайтов обращались полностью ко всему, что находилось на ресурсе, в том числе и к незначительным либо нежелательным для проведения индексации материалам. Тогда-то и возникла необходимость того, чтобы создать определенный инструмент, который мог бы указать поисковику, какие страницы достойны его внимания, а какие ему следует игнорировать. В июне 1994-го года большая часть администраторов поисковых систем и определенные заинтересованные структуры заключили договор о разработке единого программного средства, которое управляло бы действиями поискового робота на ресурсах. Результатом этого договора и стало появление на свет стандарта написания рабочего файла robots.txt. Хоть данный инструмент и не является некоей программой, а всего-навсего текстовым файлом, в его работоспособности убедились миллионы вебмастеров.

Теперь давайте рассмотрим взаимодействие файла robots.txt и поисковой системы. Когда поисковый робот заходит на ваш ресурс, он, первым делом, проводит анализ его структуры и обращается к файлу robots.txt, который имеет примерно вот такой вот внешний вид:

— User-agent: *

— Disallow: /tmp/

— Disallow: /cgi-bin/

Приведенный пример показывает, что файл запрещает поисковику индексировать 2 папки, а расположенная после первой фразы звездочка говорит нам о том, что распоряжения, которые содержатся в файле, относятся ко всем поисковым системам. Также вместо звездочки можно указать название какого-либо определенного поискового робота, тогда индексирование будет запрещено только одной поисковой системе. Слово «Disallow» и обозначает запрет на индексирование. Достаточной важностью обладает и слэш после Disallow. Давайте поясним это на конкретном примере. Запись:

— User-agent: *

— Disallow: /

означает запрет на индексацию ресурса полностью всеми поисковыми машинами. Но если вторая строка будет представлена в таком виде: «Disallow: » — без слэша, то ситуация станет противоположной: сайт целиком разрешен для индексирования всеми поисковыми системами. В связи с этим при написании файла robots.txt необходимо уделять особое внимание тому, имеется, либо отсутствует слэш после слова «Disallow».

В заключение хотелось бы напомнить, что имеются и иные способы запрета на проведение индексации сайта, широко применяемых вебмастерами в процессе внутренней оптимизации сайта – это тег noindex и атрибут nofollow, о которых мы вам уже рассказывали ранее, однако оба гиганта поиска – отечественный Яндекс и мировой Google наиболее лояльны именно к содержимому файла robots.txt.

Adblock
detector