Смотрите полный видеокурс на iTunes
Он представляет собой текстовый файл, который располагается в корневом каталоге Вашего ресурса и содержит в себе различные инструкции для поисковых машин. С его помощью можно производить следующие действия: запрещать или разрешать индексацию конкретных разделов или страниц сайта, указывать основное зеркало ресурса и отображать путь к такому файлу как sitemap.
Пример с закрытием от индексации технических разделов Вашего ресурса ярко демонстрирует полезность файла Robots.txt. Так, например, если технические страницы на Вашем сайте открыты для индексации, то поисковик всеми силами попытается выбросить их из индекса и в процессе этого действия он случайно может закрыть нужные для сайта страницы. Далее рассмотрим, каким же образом создается Robots.txt.
Создание файла с инструкциями
Создается он при помощи обыкновенного блокнота. После создания его необходимо поместить в корневой каталог Вашего ресурса. Когда поисковый робот зайдет на ваш сайт, то он первым делом прочтет этот файл, содержащий инструкции для него.
Настройка файла
В процессе настройки Robots.txt используются две основные директивы: Disallow и User-agent. В последней директиве содержаться указания о том, какой конкретно робот будет выполнять запрет на индексацию, который прописан в первой директиве. Если после первой директивы указать путь к файлу или каталогу, то поисковые машины перестанут их индексировать. Не стоит прописывать в одной строке несколько путей, так как оформленная таким образом строка не будет работать. Если же Вы руководствуетесь совсем противоположной целью, то есть хотите открыть директорию или файл к индексации, то следует воспользоваться командой Allow.
Robots.txt использует также и дополнительные директивы, среди которых очень много интересных и полезных. Так, например, host применяется для отображения основного зеркала Вашего ресурса в том случае, если у Вас имеется несколько зеркал. Такая директива как Sitemap предназначена для помощи роботам поисковых систем в определении местонахождения файла с картой Вашего ресурса. Crawl-delay используется для того чтобы установить задержку между загрузками страниц ресурса поисковыми машинами. Очень полезно для тех ресурсов, которые содержат очень большое число страниц. Следующая директива, Request-rate, отвечает за периодичность загрузки страниц роботами поисковых систем, то есть одна страница будет загружаться за определенный промежуток времени. Visit-time – это директива определяющая интервалы времени, когда роботам разрешается загружать страницы сайта. Время рекомендуется выставлять по Гринвичу.
Вред от неправильных настроек
Если Robots.txt будет настроен некорректно, то к поиску могут открыться те страницы, которые содержат в себе конфиденциальную информацию, например, о Ваших пользователях или клиентах. Неправильные настройки могут также привести к тому, что поисковые роботы запретят к индексации нужные и полезные страницы Вашего ресурса.
Как проверяется правильность настроек?
Для проверки имеющихся настроек можно использовать такой сервис Яндекс.Вебмастера как Анализ. Стоит только вписать в нужное поле имя проверяемого домена и все ошибки будут отображены.
Привет файла robots.txt для WordPress
Вот для наглядности мой robots.txt. В принципе любой владелец блога на данной CMS может смело его использовать.
User-agent: *
Allow: */uploads
Disallow: /cgi-bin
Disallow: /wp-
Disallow: */feed
Disallow: /search
Disallow: /xmlrpc.php
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback
Disallow: /*?*
Host: gendolf.info
Sitemap: https://gendolf.info/sitemap.xml
Полезная информация, но боюсь, лишь, как познавательная. То есть для ознакомления. Умеющий создавать такой файл читая представляет мысленно примерные настройки файла, конкретные случаи из своих настроек. А что представлять тому кто с этим файлом не сталкивался либо сталкивался лишь по наслышке? Думаю необходима дополнительная статья, как создать подобный файл, с наглядными примерами различных устанавливаемых задач. С вариантами – так правильно, а так не правильно. Но это лично мое мнение. Конечно подобную информацию можно найти в том же Яндекс.Вебмастере. У вас хороший сайт с хорошо преподносимой информацией, с приятным интерфейсом. И мне, например, было бы приятней тут почитать и чему-то научиться.
Самый простой способ, это найти в интернете по запросу “оптимальный файл robots.txt. для ……( ваш CMS ).
Верно :). Но знать теоретические основы тоже неплохо.
Для меня уж очень все это сложно robots.txt и все его команды.
Да и опасно это можно закрыть какую нибудь важную страницу.