Правильный robots.txt для WordPress
Сегодня захожу в Яндекс.Вебмастер, и вижу что проиндексировав этот сайт, Яндекс нашел ошибки. Выглядит примерно так:
- HTTP-статус: Ресурс временно перемещён (302)
- Неверный формат документа
Согласитесь не очень приятно, когда Яндекс ругается на ваш сайт. Начал разбираться что к чему и почему, выяснилось вот что:
ошибка «Неверный формат документа» возникает по всем ссылкам у которых в конце стоит /feed/, а ошибки «HTTP-статус: Ресурс временно перемещён (302)» - на всех ссылках, в которых на конце стоит /trackback/ в принципе Яндекс прав, все что выдается по этим ссылкам не для поисковых машин и действительно является ошибками. Будем это исправлять.
Немного покопался в Интернете и решил закрыть все лишние для поисковиков ссылки с помощью файла robots.txt. В результате у меня получился вот такой файл robots.txt:
User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Host: www.batyanya.com.ua User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Sitemap: https://www.batyanya.com.ua/sitemap.xml
Этим файлом (robots.txt) запрещается индексация служебных разделов вашего блога для всех поисковых серверов, что позволит избежать различных неприятных недоразумений с поисковиками, таких, как дубляж содержимого сайта и т.п, и т.д.
Параметр Host в robots.txt действует только для Яндекса, поэтому его желательно указывать в конце файла, или определив для какого именно поисковика вы задаете этот параметр.