Вопросы по теме 'bloom-filter'

Напротив фильтра Блума?
Я пытаюсь оптимизировать программу, которая в основном выполняет миллионы тестов. Эти тесты созданы таким образом, что могут быть некоторые повторения. Конечно, я не хочу тратить время на выполнение тестов, которые я уже проводил, если я могу...
12828 просмотров
schedule 19.02.2022

Умножение 2 положительных чисел дает отрицательный результат
Возможный дубликат: Как Java обрабатывает целочисленные недополнения и переполнения и как бы вы это проверили? Умножение двух целых чисел становится отрицательным Моя программа представляет собой реализацию фильтра Блума. Однако,...
2273 просмотров
schedule 25.02.2023

Как Bloom Filters может помочь определить, просканирован ли уже URL?
Я все время слышу о том, как фильтры Блума могут быть полезны при сканировании веб-сайтов, особенно при определении того, просканирован ли уже URL-адрес (поскольку фильтр Блума эффективно использует память при тестировании членства в наборе)....
1420 просмотров
schedule 16.05.2022

Использование фильтра цветения в Google Chrome
Я читал статью в Википедии об использовании фильтров Блума. В статье упоминалось, что фильтры Блума используются Google Chrome для определения того, является ли введенный URL-адрес вредоносным. Из-за наличия ложного срабатывания Веб-браузер...
2236 просмотров

битовый массив Python (исполнитель)
Я разрабатываю фильтр цветения, и мне интересно, какая реализация битового массива наиболее производительна в Python. Хорошая вещь в Python заключается в том, что он может обрабатывать целые числа произвольной длины из коробки, и это то, что я...
9479 просмотров
schedule 16.07.2022

Поиск в большом наборе данных в Rails
Я разрабатываю приложение Rails. У меня есть большой набор статических заголовков (около 3,5 млн), которые я много просматриваю. На данный момент набор данных хранится в моей базе данных PostgreSQL, и я ищу, используя индекс postgres и...
535 просмотров

Атомарный вероятностный подсчет и членство в наборе в MongoDB
Я хочу выполнить вероятностный подсчет и установить членство, используя такие структуры, как фильтры Блума и гиперлоглог. Я предполагаю, что могу хранить такие структуры как двоичные данные, но я не хочу использовать оптимистическую блокировку (также...
114 просмотров
schedule 13.06.2023

Преобразование значений хеш-функции в целочисленные значения, которые можно использовать в фильтре Блума из m битов Диапазон
Вот некоторые основные сведения о фильтре Bloom Может ли кто-нибудь объяснить мне, как мы можем преобразовать хеш-функцию (скажем, md5, sha1 или любую другую предопределенную хеш-функцию) в целочисленное значение в диапазоне от 0 до m, где m -...
244 просмотров

Использование Hadoop MapReduce DistributedCache
Я пытаюсь воспроизвести пример Bloom Filtering из книги Шаблон проектирования MapReduce . Далее я покажу только интересующий код: public static class BloomFilteringMapper extends Mapper<Object, Text, Text, NullWritable> { private...
393 просмотров

Ошибка при сохранении и перезагрузке фильтра цветения гуавы - нужна помощь в поиске ошибки в коде
Недавно я тестировал реализацию Google классического фильтра Блума, прежде чем использовать его в производстве. Я использую версию 18 библиотеки guava. Когда я запускаю следующую программу, я получаю более 200 различных значений в файле sysout. Я...
1255 просмотров
schedule 03.11.2022

Могу ли я использовать 1 вместо k хеш-функций для реализации фильтра Блума?
Здесь есть аналогичный вопрос: Почему фильтру Блума нужно несколько Хеш-функции? , но у него есть выбранный ответ, который довольно расплывчатый и не полностью отвечает на мой вопрос: Вместо использования k хеш-функций (или даже всего 2, как...
73 просмотров

Вероятностный набор для очень низкой вероятности
Я ищу структуру данных набора, оптимизированную для очень низкой вероятности того, что элемент является частью набора. Вариант использования — пожарный шланг соответствия Gnip/Twitter, где мы получаем около 1000 событий в секунду (это удаления из...
53 просмотров
schedule 14.12.2022

Извлечение фильтра цветения кассандры
У меня есть сервер cassandra, который запрашивает другая служба, и мне нужно уменьшить количество запросов. Моей первой мыслью было создавать фильтр цветения для всей базы данных каждые пару минут и отправлять его в сервис. но поскольку у меня...
88 просмотров
schedule 22.05.2024

Фильтр Блума на основе символов
Я новичок в Bloom Filter. Я понимаю, как реализовать фильтр Блума с битовым массивом, в котором мы хэшируем значение x с помощью k хэш-функций и устанавливаем каждый индекс битового массива равным 1. Но мне интересно, как мы собираемся реализовать...
331 просмотров
schedule 06.03.2022

Фильтры Блума: частота ошибок выше, чем ожидалось
Я создал фильтр Блума, используя murmur3, blake2b и оптимизацию Кирша-Митценмахера, как описано во втором ответе на этот вопрос: Какие хеш-функции использовать в фильтре Блума Однако, когда я его тестировал, фильтр Блума постоянно имел гораздо...
249 просмотров
schedule 12.05.2022

Фильтры Блума в распределенной среде
У меня есть система, состоящая из нескольких экземпляров приложений, написанных на Java. Запросы к ним балансируются по нагрузке для обеспечения высокой доступности. Каждую секунду этот «кластер» получает сотни небольших фрагментов данных (каждый из...
933 просмотров