Любой способ как NoIndex, так и Prevent Crawling?

Я создал новый веб-сайт и не хочу, чтобы он сканировался поисковыми системами и не отображался в результатах поиска.

Я уже создал robots.txt

User-agent: *
Disallow: /

У меня есть html-страница. я хотел использовать

<meta name="robots" content="noindex">

но на странице Google говорится, что ее следует использовать, когда страница не заблокирована robots.txt, поскольку robots.txt вообще не увидит тег noindex.

Можно ли как-то использовать как noindex, так и robots.txt?


person user2961712    schedule 26.09.2015    source источник


Ответы (1)


Есть два решения, ни одно из которых не является элегантным.

Вы правы в том, что даже если вы Disallow: /, ваши URL-адреса могут по-прежнему отображаться в результатах поиска, скорее всего, без метаописания и заголовка, сгенерированного Google.

Предполагая, что вы делаете это только временно, рекомендуемым подходом является базовая HTTP-аутентификация перед вашим сайтом. Это не очень хорошо, поскольку пользователям придется вводить основное имя пользователя и пароль, но это предотвратит сканирование и индексацию вашего сайта.

Если вы не можете или не хотите размещать базовую аутентификацию перед своим сайтом, можно по-прежнему оставить Disallow: / в файле Robots.txt и использовать Google Search Console для регулярной очистки Google index, запросив удаление сайта из индекса.

Это неэлегантно во многих отношениях.

  1. Вам нужно будет следить за результатами поиска, чтобы увидеть, индексируются ли URL-адреса.
  2. Вам придется вручную запросить удаление в Google Search Console.
  3. Google действительно не планировал использовать функцию удаления таким образом, и кто знает, начнут ли они со временем игнорировать ваши запросы. Но я полагаю, что он действительно продолжит работать, даже если они предпочли бы, чтобы вы не использовали его таким образом.
person eywu    schedule 26.09.2015