Hbase против Cassandra против Kafka для хранения данных временных рядов с высоким разрешением

Между Hbase, Cassandra и Kafka, каковы плюсы и минусы использования любой из технологий для хранения данных временных рядов с высоким разрешением (s или даже ms)?


person iCode    schedule 16.05.2014    source источник
comment
Можете ли вы прокомментировать, что вам нужно делать с этими данными?   -  person Tupshin Harper    schedule 17.05.2014
comment
Визуализируйте их, а также анализируйте их как в реальном времени, так и в прошлом.   -  person iCode    schedule 17.05.2014


Ответы (1)


Прежде всего - Kafka, AFAIK, не система хранения, а платформа обмена сообщениями, которую вы можете использовать для отправки событий временных рядов в систему, которая будет обрабатывать и хранить эту информацию.

Во-вторых, все зависит от того, как вы хотите агрегировать, запрашивать и извлекать данные. Как и в случае с большинством баз данных NoSQL, эти вопросы имеют решающее значение, прежде чем вы даже решите двигаться дальше.

В-третьих, есть два решения для хранения данных временных рядов, построенных на базе HBase и Cassandra, а именно OpenTSDB и KairosDB. Оба довольно хорошо известны, оба должны иметь возможность хранить события с высоким разрешением (секунды или миллисекунды). Или, в качестве альтернативы, вы можете взглянуть на Druid, но это немного другой подход к проблеме ...

В целом, я бы посоветовал KairosDB - он оказался отличным помощником для хранения ТБ данных временных рядов.

person Łukasz Rżanek    schedule 17.05.2014
comment
Благодарю за ваш ответ. На самом деле мой вопрос в том, от чего это зависит? Можете ли вы пролить свет на то, чем hbase и Cassandra различаются в зависимости от агрегирования, запроса или выборки? Также почему вы выбрали KairosDB вместо OpenTSDB? - person iCode; 18.05.2014
comment
Причина, по которой мы выбрали Кайроса, была в основном Кассандра - мы ее хорошо знаем, она надежна и довольно хорошо задокументирована. Симметричная архитектура позволила нам легко масштабировать кластер, сохраняя при этом высокую согласованность данных. Настроить действительно сложный кластер C * намного проще, чем с HBase. KairsoDB и OpenTSDB очень похожи по конструкции, так что это не было основной причиной, по которой мы начали использовать одно вместо другого. Кассандра была той причиной, правда ... - person Łukasz Rżanek; 18.05.2014
comment
Есть ли какое-либо отношение к модели конечной согласованности Cassandra для визуализации в реальном времени? Кроме того, не могли бы вы поделиться своими текущими показателями производительности и спецификацией кластера? - person iCode; 19.05.2014
comment
Конечная согласованность - это то, что вы можете легко контролировать, так что здесь нет проблем. Что касается метрик - это конфиденциальная информация в нашей компании, мы не делимся никакой информацией о текущих операциях. Так что не могу вам здесь помочь. Но у KairosDB хорошее сообщество, и вы можете попросить что-то подобное в группах Google - наверняка найдется более открытая не немецкая компания ... - person Łukasz Rżanek; 19.05.2014
comment
Кафка, AFAIK, это не система хранения не совсем верно. Удержание настраивается. - person liammclennan; 31.03.2015
comment
@liammclennan - сохранение сообщений или твердое хранилище для сообщений в пути по-прежнему не является механизмом хранения :-) - person Łukasz Rżanek; 31.03.2015
comment
Хотя спорно ... если вся цель механизма хранения - временно сохранить сообщение во время полета, а затем удалить его ... это вроде как? - person Mainguy; 18.05.2016