Сканеры не берут файл Robots.txt из корня сайта, НО берут из корневого каталога.

Я заблокировал поисковые роботы для сканирования моего корневого веб-сайта (/ var / www / в моем случае) с помощью robots.txt. У меня есть файл robots.txt в / var / www /, и в нем есть строка ниже: Disallow /

Теперь мне нужен один из моих подкаталогов корневого веб-каталога (/var/www/mysite.com) для сканирования сканерами. Я добавил robots.txt в этот каталог и добавил виртуальный хост в apache, чтобы разрешить сканирование этого mysite.com. НО сканеры по-прежнему берут robots.txt из моего корневого веб-сайта (/ var / www) вместо (/var/www/mysite.com).

Заранее благодарим за помощь.


person vyasamit2007    schedule 10.05.2013    source источник


Ответы (1)


Вы указываете только один robots.txt, который находится в вашем корневом каталоге.

Дополнительную информацию можно найти в официальной документации.

Где поставить

Краткий ответ: в каталоге верхнего уровня вашего веб-сервера.

Более длинный ответ:

Когда робот ищет файл «/robots.txt» для URL-адреса, он удаляет компонент пути из URL-адреса (все, начиная с первой косой черты) и помещает на его место «/robots.txt».

Например, для "http://www.example.com/shop/index.html, он удалит «/shop/index.html» и заменит его на «/robots.txt», а в итоге получится «".

Также на той же странице (внизу) приводится пример разрешения только определенной веб-страницы:

Чтобы исключить все файлы, кроме одного

В настоящее время это немного неудобно, поскольку нет поля «Разрешить».

Самый простой способ - поместить все файлы, которые нельзя разрешить, в отдельный каталог, скажем "stuff", и оставить один файл на уровне выше этого каталога:

User-agent: *
Disallow: /~joe/stuff/

В качестве альтернативы вы можете явно запретить все запрещенные страницы:

User-agent: * 
Disallow: /~joe/junk.html 
Disallow: /~joe/foo.html 
Disallow: /~joe/bar.html
person Ewan    schedule 10.05.2013