Почему ботам нельзя разрешать идентификаторы сеансов?

Я пытаюсь написать скрипт, который позволит мне идентифицировать ботов, которые пытаются затопить мой сайт oscommerce, но некоторые боты часто меняют свои IP-адреса, поэтому я не могу использовать IP-адрес для их запрета.

Я подумал, может быть, если я включу сеансы для ботов, я смогу использовать идентификаторы сеансов, чтобы заблокировать бота.

Я провел некоторое исследование по этому поводу и обнаружил, что включение сеансов для ботов не рекомендуется, но я до сих пор не уверен, почему?


person Manish Pradhan    schedule 25.09.2012    source источник
comment
Какой-нибудь из ответов ниже сработал для вас?   -  person DiverseAndRemote.com    schedule 12.10.2012
comment
Я разместил то, что нашел, в качестве ответа ниже. благодаря.   -  person Manish Pradhan    schedule 12.10.2012


Ответы (3)


Проблема с разрешением сеанса ботам заключается в том, что вредоносный бот в некоторых случаях не будет поддерживать состояние файла cookie на страницах, которые он сканирует на вашем сайте. Таким образом, каждое посещение вашего сайта ботом будет генерировать новый сеанс.

person DiverseAndRemote.com    schedule 25.09.2012
comment
Спасибо, Омар. Я думаю, что я буду исследовать немного больше. Я все еще не удовлетворен. - person Manish Pradhan; 27.09.2012

Большинство ботов просто игнорируют идентификатор сеанса, потому что знают, что на самом деле он не является частью URL-адреса. В противном случае им придется индексировать такие страницы, как index.php?sid=ABC, index.php?sid=BBC, index.php?sid=CBC и т. д. Поскольку они знают, что это одна и та же страница, они будут игнорировать идентификатор сеанса.

Почему бы вам просто не заблокировать ботов на основе user_agent? Боты, которые не идентифицируют себя с помощью user_agent, не могут быть заблокированы, кроме IP-адреса.

person Nin    schedule 12.10.2012

Вот что я нашел -

  1. Поисковые боты также могут получать идентификаторы сеансов и могут индексировать одну и ту же страницу сотни и более раз, поскольку большинство ботов не сохраняют состояние своих файлов cookie. Это будет означать дублирование индексации контента и может серьезно повлиять на наш рейтинг в поисковых системах.

  2. Поскольку бот по своей природе игнорирует заголовки файлов cookie, он не отправляет подтверждение при каждом последующем запросе. По сути, каждый запрос бота создает новую сессию. Агрессивный бот на большом сайте может создавать сотни и даже тысячи фантомных сессий, занимающих место в памяти до истечения срока их действия.

person Manish Pradhan    schedule 12.10.2012
comment
Это похоже на то, что я сказал в своем ответе - person DiverseAndRemote.com; 12.10.2012