Как удалить субдомен из индекса Google, который ссылается на основной домен

Может ли кто-нибудь сказать мне, как я могу удалить субдомен из индекса Google, который ссылается на основной домен.

Допустим, мой домен — www.myweb.com, а мой поддомен — cdn.myweb.com. Теперь здесь Document Root поддомена совпадает с основным доменом. Поэтому я не мог использовать robot.txt, чтобы остановить индексирование Google, так как он также удалит индексирование основных ссылок домена.

Я также ищу в google, bing и stackoverflow, но не смог найти идеального ответа на вопрос. Есть ли решение с вашей стороны?


person on9cinema    schedule 09.02.2013    source источник


Ответы (3)


Для этой цели вы можете использовать динамический файл robots.txt. Что-то вроде этого...

httpd.conf (.htaccess):

RewriteRule /robots\.txt$ /var/www/myweb/robots.php

robots.php:

<?php
header('Content-type: text/plain');

if($_SERVER['HTTP_HOST']=='cdn.myweb.com'){ 
    echo "User-agent: *\n";
    echo "Disallow: /\n";
}else{              
    include("./robots.txt");    
}
person 2oppin    schedule 18.02.2013

Я использую nginx и имею несколько поддоменов в одном блоке сервера. Я хочу, чтобы субдомен www был включен в индекс Google, а остальные субдомены были исключены.

Во-первых, в моем блоке сервера конфигурации nginx я добавил следующее, чтобы обслуживать 2 разных файла в /robots.txt в зависимости от домена.

location ~ /robots.txt {
    if ($host = 'www.example.com') {
      rewrite ^/robots\.txt /robots.www.txt last;
    }
  }

Затем в корневом каталоге моего сайта и есть следующие 2 файла:

  • robots.txt, который блокирует сканирование и используется по умолчанию для всех субдоменов.
# Do not crawl subdomain
User-Agent: *
Disallow: /
  • robots.www.txt, который позволяет сканировать весь сайт и обслуживается только на www.example.com/robots.txt.
User-agent: *
Disallow:
person acw    schedule 21.02.2013
comment
как сделать что-то подобное для сайта, размещенного на сервере IIS? - person Krunal; 09.07.2013

Прежде всего, нужно добавить robots.txt, но в моем случае, поскольку моя страница уже была проиндексирована с поддоменом CDN, для robots было слишком поздно. Лучший способ, который я нашел, — перейти в Инструменты Google для веб-мастеров и добавить свой домен cdn (cdn.mysite.com). Затем перейдите в индекс Google -> Удалить URL-адреса и удалите URL-адрес /. На вступление в силу ушло несколько дней.

person Kim D.    schedule 09.10.2013