Использование robots.txt для блокировки /?param=X

Я создал веб-сайт с помощью Wordpress, и в первый день он был полон фиктивного контента, пока я не загрузил свой. Страницы, проиндексированные Google, такие как:

www.url.com/?cat=1

Теперь этих страниц не существует, и чтобы сделать запрос на удаление, Google просит меня заблокировать их в robots.txt.

Должен ли я использовать:

User-Agent: *
Disallow: /?cat=

or

User-Agent: *
Disallow: /?cat=*

Мой файл robots.txt будет выглядеть примерно так:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /author
Disallow: /?cat=
Sitemap: http://url.com/sitemap.xml.gz

Это выглядит нормально или может вызвать проблемы с поисковыми системами? Должен ли я использовать Allow: / вместе со всеми Disallow:?


person Meredith    schedule 21.01.2011    source источник
comment
Здесь нет необходимости использовать Разрешить, если нет определенных категорий, которые вы хотите разрешить. Например, вы запрещаете все, что начинается с /?cat=. Но вы можете разрешить определенную категорию, например Allow: /?cat=something.   -  person Jim Mischel    schedule 21.01.2011


Ответы (3)


Я бы пошел с этим на самом деле

Чтобы заблокировать доступ ко всем URL-адресам, которые содержат вопросительный знак (?) (точнее, любой URL-адрес, который начинается с вашего доменного имени, за которым следует любая строка, за которой следует вопросительный знак, за которым следует любая строка):

User-agent: Googlebot
Disallow: /*?

Так что я бы на самом деле пошел с:

User-agent: Googlebot
Disallow: /*?cat=

Ресурс (в соответствии с шаблоном)

person Trufa    schedule 21.01.2011

Как правило, вы не должны не использовать директивы robots.txt для обработки удаленного контента. Если поисковая система не может его просканировать, она не может сказать, был ли он удален, и может продолжить индексировать (или даже начать индексировать) эти URL-адреса. Правильное решение — убедиться, что ваш сайт возвращает код результата HTTP 404 (или 410) для этих URL-адресов, тогда они со временем автоматически исчезнут.

Если вы хотите использовать срочные инструменты Google для удаления URL, вам нужно будет отправить эти URL по отдельности. в любом случае, вы ничего не получите, используя запрет в robots.txt.

person John Mueller    schedule 22.01.2011

Если поисковая система не может его просканировать, она не может сказать, был ли он удален, и может продолжить индексировать (или даже начать индексировать) эти URL-адреса.

person KAI    schedule 19.01.2012