Вопросы по теме 'robots.txt'
Google проиндексировал мои тестовые папки на моем веб-сайте :( Как мне ограничить поисковые роботы!
Помогите помогите! Google проиндексировал тестовую папку на моем веб-сайте, о которой никто, кроме меня, не должен был знать :(! Как мне запретить Google индексировать ссылки и определенные папки.
2782 просмотров
schedule
08.02.2023
Указание переменных в robots.txt
Моя структура URL настроена на две параллели (оба ведут в одно и то же место):
www.example.com/subname
www.example.com/123
Проблема в том, что пауки ползают по таким вещам, как:
www.example.com/subname/default_media_function...
632 просмотров
schedule
26.11.2022
Как robots.txt может запретить все URL-адреса, кроме URL-адресов, которые находятся в карте сайта
Мне нужно контролировать, какие URL-адреса разрешено индексировать. Для этого я хочу разрешить Google индексировать только URL-адреса, перечисленные в моих файлах Sitemap, и запретить Google индексировать что-либо еще.
Самый простой способ решить...
2602 просмотров
schedule
05.01.2023
Какой лучший язык программирования для написания веб-бота?
Я хочу знать, какой язык программирования предоставляет достаточное количество библиотек для программирования веб-бота? Что-то вроде сканирования веб-страницы для данных. Скажем, я хочу получить информацию о погоде для веб-сайта weather.yahoo.com....
8626 просмотров
schedule
19.02.2022
Разное содержимое robots.txt для разных доменных имен, связанных с одной и той же корневой папкой
У меня есть два доменных имени, которые ссылаются на один и тот же корень. Как сделать так, чтобы robots.txt имел разное содержимое в зависимости от доменного имени?
235 просмотров
schedule
17.04.2022
Использование robots.txt для блокировки /?param=X
Я создал веб-сайт с помощью Wordpress, и в первый день он был полон фиктивного контента, пока я не загрузил свой. Страницы, проиндексированные Google, такие как:
www.url.com/?cat=1
Теперь этих страниц не существует, и чтобы сделать запрос на...
717 просмотров
schedule
29.01.2023
Robots.txt: запретить подкаталог, но разрешить каталог
Я хочу разрешить сканирование файлов в:
/directory/
но не сканирование файлов в:
/directory/subdirectory/
Правильная инструкция robots.txt:
User-agent: *
Disallow: /subdirectory/
Я боюсь, что если бы я запретил...
6535 просмотров
schedule
21.03.2022
rel=nfollow субдомен
У меня есть поддомен, который я использую для рекламы. У него установлен openx для показа рекламы. Как я могу гарантировать, что все из поддомена будет рассматриваться как добавление rel=nofollow, поскольку я не хочу, чтобы Google и другие поисковые...
1310 просмотров
schedule
03.08.2022
Что означает этот файл robots.txt? Разве это не позволяет никаких роботов?
User-agent: *
Disallow:
Disallow: /admin
Disallow: /admin
Sitemap: http://www.myadress.com/ext/sm/Sitemap_114.xml
Я нашел этот файл robots.txt в одной из корневых папок моего сайта. Я не знаю, я сделал это или кто.
Я думаю, что этот файл не...
551 просмотров
schedule
07.06.2023
Должны ли мы помещать папки с защитой паролем htaccess в robots.txt?
Мы хотим запретить пользовательским агентам файлы JavaScript, файлы CSS и изображения, верно? Классы, модули и другие папки такого типа должны быть защищены htaccess. Я прав? Если нет, пожалуйста, дайте мне знать об этом.
В результате обычный...
407 просмотров
schedule
27.09.2022
Wordpress Robots.txt имеет значение / feed?
У меня есть вопросы по SEO, Robots.txt и wordpress
Вот как выглядит мой файл robots.txt:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /feed
Disallow: /*/feed
Disallow:...
1465 просмотров
schedule
03.11.2022
остановить создание robot.txt на лету в wordpress
У меня нет файла robots.txt в моей корневой папке, но я могу получить к нему доступ через example.com/robots.txt, он показывает следующее содержимое:
User-agent: *
Disallow:
После некоторых исследований в Google я узнал, что он...
657 просмотров
schedule
28.04.2023
Игнорировать URL-адреса в robot.txt с определенными параметрами?
Я бы хотел, чтобы Google игнорировал такие URL-адреса:
http://www.mydomain.com/new-printers?dir=asc&order=price&p=3
Все URL-адреса с параметрами dir, order и price следует игнорировать, но у меня нет опыта работы с Robots.txt.
Есть идеи?
69106 просмотров
schedule
29.03.2023
Проблема с проверкой файла Robots.txt
Я использую очень простой файл robots.txt для нашего портала, который выглядит следующим образом:
Агент пользователя: * Запретить: / Разрешить: /robots.txt
Проблема в том, что когда я использую онлайн-верификатор и указываю ему на действующую...
402 просмотров
schedule
15.04.2022
Модуль Python robotparser не загружает robots.txt
Я пишу очень простой поисковый робот и пытаюсь разобрать 'robots.txt' файлов. Я нашел в стандартной библиотеке модуль robotparser , который должен делать именно это. Я использую Python 2.7.2. К сожалению, мой код не загружает файлы 'robots.txt'...
2445 просмотров
schedule
25.03.2022
Как избежать дублирования страниц поиска в Google
У меня есть сайт с поиском с 4 выпадающими списками. Каждое из этих раскрывающихся списков перенаправляет обратно на страницу, о которой идет речь, но с параметром url, чтобы указать, как сортировать результаты. В первом раскрывающемся списке есть...
132 просмотров
schedule
28.03.2022
Как разрешить Google сканировать PDF-файлы, но не индексировать их?
если я правильно понимаю, вы можете указать Google сканировать или не сканировать файлы PDF только через robots.txt. я хочу, чтобы Google сканировал файлы, но не отображал их на страницах результатов поиска.
Это возможно?
467 просмотров
schedule
25.12.2022
noindex следовать в Robots.txt
У меня есть сайт wordpress, который проиндексирован поисковыми системами.
Я отредактировал файл robots.txt, чтобы исключить определенные каталоги и веб-страницы из поискового индекса.
Я знаю только, как использовать разрешать и запрещать, но не...
1394 просмотров
schedule
29.01.2023
robots.txt запретить /variable_dir_name/directory
Мне нужно запретить /variable_dir_name/directory через robots.txt
Я использую:
Запретить: */каталог Noindex: */каталог
это правильно?
163 просмотров
schedule
03.10.2022
Google не читает мой robots.txt на s3
Поскольку Google сканирует наш статический контент (хранящийся на s3), мы создали robots.txt в корневом каталоге (сегмента).. следующим образом
User-agent: *
Disallow: /
Теперь, поскольку мы хотели удалить существующий контент из поиска...
7528 просмотров
schedule
12.07.2023