Вопросы по теме 'robots.txt'

Google проиндексировал мои тестовые папки на моем веб-сайте :( Как мне ограничить поисковые роботы!
Помогите помогите! Google проиндексировал тестовую папку на моем веб-сайте, о которой никто, кроме меня, не должен был знать :(! Как мне запретить Google индексировать ссылки и определенные папки.
2782 просмотров
schedule 08.02.2023

Указание переменных в robots.txt
Моя структура URL настроена на две параллели (оба ведут в одно и то же место): www.example.com/subname www.example.com/123 Проблема в том, что пауки ползают по таким вещам, как: www.example.com/subname/default_media_function...
632 просмотров
schedule 26.11.2022

Как robots.txt может запретить все URL-адреса, кроме URL-адресов, которые находятся в карте сайта
Мне нужно контролировать, какие URL-адреса разрешено индексировать. Для этого я хочу разрешить Google индексировать только URL-адреса, перечисленные в моих файлах Sitemap, и запретить Google индексировать что-либо еще. Самый простой способ решить...
2602 просмотров
schedule 05.01.2023

Какой лучший язык программирования для написания веб-бота?
Я хочу знать, какой язык программирования предоставляет достаточное количество библиотек для программирования веб-бота? Что-то вроде сканирования веб-страницы для данных. Скажем, я хочу получить информацию о погоде для веб-сайта weather.yahoo.com....
8626 просмотров

Разное содержимое robots.txt для разных доменных имен, связанных с одной и той же корневой папкой
У меня есть два доменных имени, которые ссылаются на один и тот же корень. Как сделать так, чтобы robots.txt имел разное содержимое в зависимости от доменного имени?
235 просмотров
schedule 17.04.2022

Использование robots.txt для блокировки /?param=X
Я создал веб-сайт с помощью Wordpress, и в первый день он был полон фиктивного контента, пока я не загрузил свой. Страницы, проиндексированные Google, такие как: www.url.com/?cat=1 Теперь этих страниц не существует, и чтобы сделать запрос на...
717 просмотров
schedule 29.01.2023

Robots.txt: запретить подкаталог, но разрешить каталог
Я хочу разрешить сканирование файлов в: /directory/ но не сканирование файлов в: /directory/subdirectory/ Правильная инструкция robots.txt: User-agent: * Disallow: /subdirectory/ Я боюсь, что если бы я запретил...
6535 просмотров
schedule 21.03.2022

rel=nfollow субдомен
У меня есть поддомен, который я использую для рекламы. У него установлен openx для показа рекламы. Как я могу гарантировать, что все из поддомена будет рассматриваться как добавление rel=nofollow, поскольку я не хочу, чтобы Google и другие поисковые...
1310 просмотров
schedule 03.08.2022

Что означает этот файл robots.txt? Разве это не позволяет никаких роботов?
User-agent: * Disallow: Disallow: /admin Disallow: /admin Sitemap: http://www.myadress.com/ext/sm/Sitemap_114.xml Я нашел этот файл robots.txt в одной из корневых папок моего сайта. Я не знаю, я сделал это или кто. Я думаю, что этот файл не...
551 просмотров
schedule 07.06.2023

Должны ли мы помещать папки с защитой паролем htaccess в robots.txt?
Мы хотим запретить пользовательским агентам файлы JavaScript, файлы CSS и изображения, верно? Классы, модули и другие папки такого типа должны быть защищены htaccess. Я прав? Если нет, пожалуйста, дайте мне знать об этом. В результате обычный...
407 просмотров
schedule 27.09.2022

Wordpress Robots.txt имеет значение / feed?
У меня есть вопросы по SEO, Robots.txt и wordpress Вот как выглядит мой файл robots.txt: User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /feed Disallow: /*/feed Disallow:...
1465 просмотров

остановить создание robot.txt на лету в wordpress
У меня нет файла robots.txt в моей корневой папке, но я могу получить к нему доступ через example.com/robots.txt, он показывает следующее содержимое: User-agent: * Disallow: После некоторых исследований в Google я узнал, что он...
657 просмотров
schedule 28.04.2023

Игнорировать URL-адреса в robot.txt с определенными параметрами?
Я бы хотел, чтобы Google игнорировал такие URL-адреса: http://www.mydomain.com/new-printers?dir=asc&order=price&p=3 Все URL-адреса с параметрами dir, order и price следует игнорировать, но у меня нет опыта работы с Robots.txt. Есть идеи?
69106 просмотров
schedule 29.03.2023

Проблема с проверкой файла Robots.txt
Я использую очень простой файл robots.txt для нашего портала, который выглядит следующим образом: Агент пользователя: * Запретить: / Разрешить: /robots.txt Проблема в том, что когда я использую онлайн-верификатор и указываю ему на действующую...
402 просмотров
schedule 15.04.2022

Модуль Python robotparser не загружает robots.txt
Я пишу очень простой поисковый робот и пытаюсь разобрать 'robots.txt' файлов. Я нашел в стандартной библиотеке модуль robotparser , который должен делать именно это. Я использую Python 2.7.2. К сожалению, мой код не загружает файлы 'robots.txt'...
2445 просмотров

Как избежать дублирования страниц поиска в Google
У меня есть сайт с поиском с 4 выпадающими списками. Каждое из этих раскрывающихся списков перенаправляет обратно на страницу, о которой идет речь, но с параметром url, чтобы указать, как сортировать результаты. В первом раскрывающемся списке есть...
132 просмотров
schedule 28.03.2022

Как разрешить Google сканировать PDF-файлы, но не индексировать их?
если я правильно понимаю, вы можете указать Google сканировать или не сканировать файлы PDF только через robots.txt. я хочу, чтобы Google сканировал файлы, но не отображал их на страницах результатов поиска. Это возможно?
467 просмотров
schedule 25.12.2022

noindex следовать в Robots.txt
У меня есть сайт wordpress, который проиндексирован поисковыми системами. Я отредактировал файл robots.txt, чтобы исключить определенные каталоги и веб-страницы из поискового индекса. Я знаю только, как использовать разрешать и запрещать, но не...
1394 просмотров

robots.txt запретить /variable_dir_name/directory
Мне нужно запретить /variable_dir_name/directory через robots.txt Я использую: Запретить: */каталог Noindex: */каталог это правильно?
163 просмотров
schedule 03.10.2022

Google не читает мой robots.txt на s3
Поскольку Google сканирует наш статический контент (хранящийся на s3), мы создали robots.txt в корневом каталоге (сегмента).. следующим образом User-agent: * Disallow: / Теперь, поскольку мы хотели удалить существующий контент из поиска...
7528 просмотров