301-й редирект - дополнение для robots.txt
Хочу дополнить старую статью о 301-м редиректе (Redirect 301) решением для видимости файла robots.txt
Для одного нашего клиента настраиваем параметры хостинга - но что такое? Робот Яндекса после склейки www упорно не видит robots.txt
Решение заключилось в добавлении исключения в .htaccess:
RewriteCond %{REQUEST_FILENAME} robots.txt$ [NC]
RewriteRule ^([^/]+) $1 [L]
RewriteCond %{HTTP_HOST} ^www.netnews\.by$ [NC]
RewriteRule ^(.*)$ http://netnews.by/$1 [R=301,L]
И Яндекс подхватил все просто “на ура!”.
Robots.txt
Краткая справка про файл Robots.txt
Является общим правилом работы поисковых систем, что перед индексацией вашего сайта поисковые роботы (спайдеры) ищут в корневом каталоге домена файл с именем “robots.txt”. Он сообщает роботам, какие папки и файлы сайты можно индексировать, а какие нет.
Формат файла robots.txt - текстовый файл, состоящий из записей.
Записи разделяются одной или более пустых строк (признак конца строки: символы CR, CR+LF, LF). Каждая запись содержит непустые строки следующего вида:
<поле>:<необязательный пробел><значение><необязательный пробел>
где поле — это либо User-agent, либо Disallow.
<Поле> “:” <значение>
Вот пример вредоносного использования этого файла. Просто хакните хостинг своего конкурента, и подложите ему файл robots.txt из всего 2 строк:
User-agent: *
Disallow: /
Эта директива сообщит всем (*) поисковым роботам, что запрещено (disallow) индексировать все, начиная с корневой папки сайта. Вуаля! По прямым ссылкам заходить будут, бюджеты на контекстную и медийную рекламу палиться будут - а поисковый трафик йёк