Robots.txt

Итак: что являет собой robots.txt? Это специальный текстовый файлик формата .txt, который лежит в корневом каталоге интернет-ресурса. Перед началом индексации и дальнейшего взаимодействия со страницами сайта, поисковые роботы проводят проверку этого файла.

Соответственно, это дает возможность эффективней индексировать страницы поисковыми системами и предоставляет возможность вебмастеру закрыть от сканирования ненужные страницы web-сайта. Детально составленный robots.txt поможет поисковикам сканировать именно нужную информацию вашего интернет-ресурса.

Но стоит учитывать, что команды, составленные в данном файлике, несут собой лишь рекомендательный характер, потому не стоит с полной уверенностью рассчитывать, что закрытые страницы в этом файлике не будут проиндексированы, и, как следствие, добавлены в индекс.

Синтаксис robots.txt

  • User-Agent:  здесь мы прописываем имя поискового робота, который будет учитывать составленные правила.

Пример:

User-Agent: Googlebot

  • Allow: команда, разрешающая доступ роботам к некоторым директивам. Позволяется употреблять неоднократно.

Пример:

User-Agent: Googlebot

Disallow: /search/

Allow: /parts/

  • Disallow: директива, позволяющая закрыть необходимые Вам страницы от сканирования. Disallow также может быть использован не один раз.

Пример:

User-Agent: Googlebot

Disallow: /search/

Disallow: /parts/

  • Crawl-delay: сокращает скорость обхода вашего интернет-ресурса и является эффективным решением для ситуаций, когда сервер чересчур загружен и не успевает обрабатывать запросы. Данная директива поможет указать минимальный промежуток времени между окончанием загрузки текущей страницы и началом загрузки следующей.

Пример:

User-Agent: Yandex

Crawl-delay: 3.5 # 

задаст тайм-аут в 3.5 секунды

  • Sitemap: В данной директиве мы указываем адрес к карте сайта xml

Пример:

User-agent: *

Sitemap: sitename.com/sitemap.xml

  • Host: Указываем Yandex-у основное зеркало вашего сайта. Яндекс с помощью данной директивы сможет определить зеркало интернет-ресурса и в поиске будет участвовать только основной вариант. Если вы используете https протокол, его необходимо указывать, но если вы используете http протокол, его прописывать не обязательно.

Пример:

User-Agent: Yandex

Disallow: /search/

Host: sitename.com

Символ (#) используется для дополнительных комментариев в файле robots.txt: для текущей строки всё что после # будет проигнорировано.

Пример:

User-Agent: Googlebot

Disallow: /search/ #страницы поиска

  • Регулярные выражения: используются символы, которые позволяют производить более гибкую настройку robots.txt

· * (звездочка) – означает любую последовательность символов

· $ (знак доллара) – означает конец строки

Пример:

User-Agent: Googlebot

Disallow: /*search # будет запрещать не только '/search', но и '/catalog/search'

Распространенные варианты составления и дальнейшего использования robots.txt

Используя данную конструкцию, индексация всего интернет-ресурса будет запрещена:

User-agent: *

Disallow: /

Если же мы хотим допустить к индексации ВЕСЬ сайт, прописываем следующее:

User-agent: *

Disallow:

Запрещаем индексацию файлов, имеющих определенный формат

User-agent: *

Disallow: /*.jpg

Открываем доступ к конкретной странице поисковым машинам

User-agent: *

Disallow: /no-bots/block-all-bots-except-rogerbot-page.html

User-agent: Yandex

Allow: /no-bots/block-all-bots-except-Yandex-page.html

Проверяем составленный robots.txt

Когда вы уже закончили создание своего robots.txt, наступает момент проверки. В этом могут помочь надёжные специализированные инструменты от поисковых систем:

Google Webmasters: нужно войти в аккаунт, перейти на Сканирование -> Инструмент проверки файла robots.txt.

Яндекс Вебмастер: перейдя по ссылке вы сразу попадете на страницу проверки robots.txt

Этот инструмент почти полностью повторяет функционал предыдущего, однако с небольшими различиями.

Подведем итоги

Корректное составление robots.txt один из основных пунктов начального этапа продвижения сайта в поисковых системах.

Правильная настройка поможет быстрее индексировать нужные страницы, а ненужные -- скрыть от индексации поисковых роботов.