Очередь сообщений с Apache Storm

Я новичок в Apache Storm и в расширенных возможностях, доступных с очередями сообщений. Текущая система считывает файлы из хранилища данных (текстовые, двоичные, любые) и передает их в Apache Solr для индексации. Однако с этими файлами необходимо выполнить дополнительную обработку, и именно здесь начинается шторм. Во время UpdateRequestProcessorChain во время шторма кажется, что я могу записать обрабатываемый файл в брокер сообщений, который затем я могу извлечь с помощью шторма, чтобы сделать некоторые параллельная обработка в реальном времени.

Я ожидаю в среднем 10 000 запросов в секунду по 4 КБ/сообщение. Однако существует вероятность (хотя и очень редкая) передачи файла размером более 100 ГБ в течение нескольких секунд. Существует ли очередь сообщений, которая по-прежнему будет хорошо работать с этими требованиями?

Я уже изучил Kafka, который, похоже, оптимизирован для Сообщения размером 1 КБ. RabbitMQ похоже, не любит большие файлы. ActiveMQ, кажется, имеет сообщения blob для отправки больших файлов . У кого-нибудь есть опыт работы с любым из вышеперечисленных или других?


person gears88    schedule 02.07.2015    source источник


Ответы (1)


Я не думаю, что помещать файл размером более 100 ГБ в любую очередь сообщений - хорошая идея. Вы можете предварительно обработать файл и разбить его на управляемые фрагменты, прежде чем поместить его в очередь сообщений. Вы можете добавить какой-либо идентификатор к каждому фрагменту, чтобы вы могли связать различные фрагменты файла в Storm во время обработки. Кроме того, также не рекомендуется хранить очень большой файл как один документ в Solr.

person Saurabh Saxena    schedule 03.07.2015