301-й редирект - дополнение для robots.txt

Хочу дополнить старую статью о 301-м редиректе (Redirect 301) решением для видимости файла robots.txt

Для одного нашего клиента настраиваем параметры хостинга - но что такое? Робот Яндекса после склейки www упорно не видит robots.txt

Решение заключилось в добавлении исключения в .htaccess:
RewriteCond %{REQUEST_FILENAME} robots.txt$ [NC]
RewriteRule ^([^/]+) $1 [L]

RewriteCond %{HTTP_HOST} ^www.netnews\.by$ [NC]
RewriteRule ^(.*)$ http://netnews.by/$1 [R=301,L]

И Яндекс подхватил все просто “на ура!”.

Robots.txt

Краткая справка про файл Robots.txt
Является общим правилом работы поисковых систем, что перед индексацией вашего сайта поисковые роботы (спайдеры) ищут в корневом каталоге домена файл с именем “robots.txt”. Он сообщает роботам, какие папки и файлы сайты можно индексировать, а какие нет.

Формат файла robots.txt - текстовый файл, состоящий из записей.
Записи разделяются одной или более пустых строк (признак конца строки: символы CR, CR+LF, LF). Каждая запись содержит непустые строки следующего вида:

<поле>:<необязательный пробел><значение><необязательный пробел>
где поле — это либо User-agent, либо Disallow.

<Поле> “:” <значение>

Вот пример вредоносного использования этого файла. Просто хакните хостинг своего конкурента, и подложите ему файл robots.txt из всего 2 строк:
User-agent: *
Disallow: /
 

Эта директива сообщит всем (*) поисковым роботам, что запрещено (disallow) индексировать все, начиная с корневой папки сайта. Вуаля! По прямым ссылкам заходить будут, бюджеты на контекстную и медийную рекламу палиться будут - а поисковый трафик йёк ;)

© Виталий Трахтенберг,
TVYSoftware.com

Оставьте свой отзыв!

Я не робот.

Другие статьи рубрики "Веб-сервер"