Неопределенный поисковый кластер (Solr, ES, Datastax EE)

ПРЕДИСЛОВИЕ:

Этот вопрос не требует открытого сравнения Elastic Search, Solr и Datastax Solr (Datastax EE). (Хотя ссылки в разделе комментариев приветствуются).

ПРОЕКТ:

Я некоторое время создавал веб-службу типа доменного имени. При этом я осознаю экспоненциальный рост таких услуг.

ОБЩАЯ ИНФОРМАЦИЯ:

Я хотел бы знать, какая конкретная поисковая платформа позволяет мне сохранять и расширять до бесконечности. Да, я понимаю, что в наши дни вы можете разделить Solr Shard — поэтому, если у меня есть 20 solr cloud из 20 осколков, я могу позже разделить их на 40 (я думаю? Опять же... это не неопределенно). Не уверен насчет Elastic Search. Datastax (EE), кажется, является ответом из-за архитектуры Cassandra, но (A) поскольку они не обеспечивают прозрачности цен на лицензии — и я должен раскрывать свои заработок для них. Мне быстро напомнили о стратегии Oracle "выкачать вас медленно", и поскольку я начинаю, это является огромным сдерживающим фактором. Кроме того, (B) Когда они говорят, что полностью интегрируют MapReduce с Hive, Sqop, Mahout, Solr и Pig — я думаю, что не хочу тратить всю жизнь на изучение наворотов, которые не применимы к моему проекту. Мне нужна поисковая платформа, на которой я могу добавлять 2 миллиарда документов в месяц (или любое другое число) бесконечно долго и не беспокоиться о том, что я запустил кластер со слишком маленькими сегментами.

ВОПРОС:

По общему признанию, мой фоновый раздел украден из-за невежества, которое я хотел бы исправить. Я не намерен оскорблять или разбавлять эти удивительные технологии. Мне просто интересно, какие из них могут масштабироваться, не беспокоясь о разрастании осколков [Я убрал здесь слово навсегда — спасибо за комментарий ниже]. Или может любой? Не по железу, а по осколкам. Какую платформу я могу использовать и не беспокоиться о будущем росте, будь то 20 ТБ или 2 ПБ. Предположим, что бюджет оборудования для серверов, коммутаторов и т. д. не определен.


person Chris    schedule 02.11.2013    source источник
comment
Эластичный поиск очень хорошо справляется с ростом. Вы можете без особых усилий добавлять JVM (узлы) в новые блоки. Кластер попытается перетасовать туда осколки и сохранить хороший баланс осколков. Он также может настроить реплики и убедиться, что они не находятся на том же узле, что и первичные осколки. Навсегда — это не термин, который я бы применил к какой-либо технологии. Я предполагаю, что в какой-то момент сетевые накладные расходы на рассеивание и сбор большого запроса в кластере навсегда станут большими.   -  person mconlin    schedule 03.11.2013
comment
@mconlin Это ОЧЕНЬ полезно. Я вижу, что есть книга по ES, но похоже, что в ней используется версия 2, когда актуальна версия 9. Достаточно ли существенных изменений, рендеринг .2 слишком устарел? Как лучше всего учиться / Как вы выучили ES? ЕЩЕ РАЗ СПАСИБО...   -  person Chris    schedule 03.11.2013
comment
От 0,20 до 0,90 очень разные. На их сайте много хороших постов и видео, в том числе и о масштабировании. Я использую его на работе и постоянно учусь.   -  person mconlin    schedule 03.11.2013
comment
классно-спасибо!   -  person Chris    schedule 03.11.2013
comment
@mconlin действительно ли ES позволяет мне добавлять осколки на ходу? например, если я создам кластер из 10 узлов и 10 серверов, смогу ли я позже добавить еще 10 осколков с 10 связанными серверами?   -  person Chris    schedule 03.11.2013
comment
да, очень легко добавить дополнительные узлы. Вы также можете запускать множество узлов на физической машине. Отличные видео здесь: elasticsearch.org/videos.   -  person mconlin    schedule 03.11.2013
comment
Интересно, почему вы прямо упомянули разделение осколков как необходимую функцию. Хотя это кажется многообещающим, разделение сегментов действительно дорого и требует переиндексации части данных. Elasticsearch не позволяет разбивать осколки из-за этих недостатков, но предоставляет инструменты для масштабирования без разделения осколков. Взгляните на псевдонимы и это обсуждение.   -  person javanna    schedule 04.11.2013
comment
@javaanna спасибо за ресурсы. Я поищу их! Ваше здоровье.   -  person Chris    schedule 05.11.2013


Ответы (2)


DataStax Enterprise (DSE) не является «поисковой платформой» как таковой. Одной из функций, предоставляемых DSE, является возможность поиска данных, хранящихся в Cassandra. Cassandra используется для хранения операционных данных предприятия и доступа к ним. Идея состоит в том, что после того, как вы решили, что Cassandra является предпочтительным хранилищем данных для операционных данных вашего предприятия, интеграция DSE/Solr позволит вам выполнять расширенный поиск по этим данным.

Крупные предприятия стремятся перейти от традиционных реляционных баз данных к более современным платформам, таким как базы данных NoSQL, такие как Cassandra, где масштабируемость и распределенные вычисления (включая поддержку нескольких центров обработки данных, настраиваемую согласованность и надежные инструменты операций, включая графический интерфейс OpsCenter) приборная панель) это норма. Интеграция Solr с DSE облегчает эту миграцию.

person Jack Krupansky    schedule 29.06.2014

Что касается вашего дохода, эта ссылка указывает на стартап-программу. Это делает программное обеспечение на 100% бесплатным, если вы соответствуете требованиям.

person mattz62    schedule 11.11.2013