Я все время слышу о том, как фильтры Блума могут быть полезны при сканировании веб-сайтов, особенно при определении того, просканирован ли уже URL-адрес (поскольку фильтр Блума эффективно использует память при тестировании членства в наборе).
Однако в случае использования веб-сканирования не должно ли количество битов / сегментов быть огромным, учитывая, что встречается почти бесконечное количество URL-адресов? Особенно, если вы используете Google или поисковую систему, ежедневно пытающуюся сканировать данные.
Итак, мой вопрос: как фильтр Блума помогает определить, был ли уже просканирован URL-адрес, когда количество URL-адресов продолжает расти, а количество сегментов остается постоянным?