Использование robots.txt для блокировки /?param=X

Я создал веб-сайт с помощью Wordpress, и в первый день он был полон фиктивного контента, пока я не загрузил свой. Страницы, проиндексированные Google, такие как:

www.url.com/?cat=1

Теперь этих страниц не существует, и чтобы сделать запрос на удаление, Google просит меня заблокировать их в robots.txt.

Должен ли я использовать:

User-Agent: *
Disallow: /?cat=

User-Agent: *
Disallow: /?cat=*

Мой файл robots.txt будет выглядеть примерно так:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /author
Disallow: /?cat=
Sitemap: http://url.com/sitemap.xml.gz

Это выглядит нормально или может вызвать проблемы с поисковыми системами? Должен ли я использовать Allow: / вместе со всеми Disallow:?

wordpress robots.txt search-engine

Meredith 21.01.2011 источник

comment

Здесь нет необходимости использовать Разрешить, если нет определенных категорий, которые вы хотите разрешить. Например, вы запрещаете все, что начинается с /?cat=. Но вы можете разрешить определенную категорию, например Allow: /?cat=something. - Jim Mischel 21.01.2011

Ответы (3)

arrow_upward
2
arrow_downward

Я бы пошел с этим на самом деле

Чтобы заблокировать доступ ко всем URL-адресам, которые содержат вопросительный знак (?) (точнее, любой URL-адрес, который начинается с вашего доменного имени, за которым следует любая строка, за которой следует вопросительный знак, за которым следует любая строка):

User-agent: Googlebot
Disallow: /*?

Так что я бы на самом деле пошел с:

User-agent: Googlebot
Disallow: /*?cat=

Ресурс (в соответствии с шаблоном)

Trufa 21.01.2011

arrow_upward
0
arrow_downward

Как правило, вы не должны не использовать директивы robots.txt для обработки удаленного контента. Если поисковая система не может его просканировать, она не может сказать, был ли он удален, и может продолжить индексировать (или даже начать индексировать) эти URL-адреса. Правильное решение — убедиться, что ваш сайт возвращает код результата HTTP 404 (или 410) для этих URL-адресов, тогда они со временем автоматически исчезнут.

Если вы хотите использовать срочные инструменты Google для удаления URL, вам нужно будет отправить эти URL по отдельности. в любом случае, вы ничего не получите, используя запрет в robots.txt.

John Mueller 22.01.2011

arrow_upward
0
arrow_downward

Если поисковая система не может его просканировать, она не может сказать, был ли он удален, и может продолжить индексировать (или даже начать индексировать) эти URL-адреса.

KAI 19.01.2012

Использование robots.txt для блокировки /?param=X

Ответы (3)

Похожие вопросы