Неопределенный поисковый кластер (Solr, ES, Datastax EE)

ПРЕДИСЛОВИЕ:

Этот вопрос не требует открытого сравнения Elastic Search, Solr и Datastax Solr (Datastax EE). (Хотя ссылки в разделе комментариев приветствуются).

ПРОЕКТ:

Я некоторое время создавал веб-службу типа доменного имени. При этом я осознаю экспоненциальный рост таких услуг.

ОБЩАЯ ИНФОРМАЦИЯ:

Я хотел бы знать, какая конкретная поисковая платформа позволяет мне сохранять и расширять до бесконечности. Да, я понимаю, что в наши дни вы можете разделить Solr Shard — поэтому, если у меня есть 20 solr cloud из 20 осколков, я могу позже разделить их на 40 (я думаю? Опять же... это не неопределенно). Не уверен насчет Elastic Search. Datastax (EE), кажется, является ответом из-за архитектуры Cassandra, но (A) поскольку они не обеспечивают прозрачности цен на лицензии — и я должен раскрывать свои заработок для них. Мне быстро напомнили о стратегии Oracle "выкачать вас медленно", и поскольку я начинаю, это является огромным сдерживающим фактором. Кроме того, (B) Когда они говорят, что полностью интегрируют MapReduce с Hive, Sqop, Mahout, Solr и Pig — я думаю, что не хочу тратить всю жизнь на изучение наворотов, которые не применимы к моему проекту. Мне нужна поисковая платформа, на которой я могу добавлять 2 миллиарда документов в месяц (или любое другое число) бесконечно долго и не беспокоиться о том, что я запустил кластер со слишком маленькими сегментами.

ВОПРОС:

По общему признанию, мой фоновый раздел украден из-за невежества, которое я хотел бы исправить. Я не намерен оскорблять или разбавлять эти удивительные технологии. Мне просто интересно, какие из них могут масштабироваться, не беспокоясь о разрастании осколков [Я убрал здесь слово навсегда — спасибо за комментарий ниже]. Или может любой? Не по железу, а по осколкам. Какую платформу я могу использовать и не беспокоиться о будущем росте, будь то 20 ТБ или 2 ПБ. Предположим, что бюджет оборудования для серверов, коммутаторов и т. д. не определен.

solr datastax-enterprise

Chris 02.11.2013 источник

comment

Эластичный поиск очень хорошо справляется с ростом. Вы можете без особых усилий добавлять JVM (узлы) в новые блоки. Кластер попытается перетасовать туда осколки и сохранить хороший баланс осколков. Он также может настроить реплики и убедиться, что они не находятся на том же узле, что и первичные осколки. Навсегда — это не термин, который я бы применил к какой-либо технологии. Я предполагаю, что в какой-то момент сетевые накладные расходы на рассеивание и сбор большого запроса в кластере навсегда станут большими. - mconlin 03.11.2013

comment

@mconlin Это ОЧЕНЬ полезно. Я вижу, что есть книга по ES, но похоже, что в ней используется версия 2, когда актуальна версия 9. Достаточно ли существенных изменений, рендеринг .2 слишком устарел? Как лучше всего учиться / Как вы выучили ES? ЕЩЕ РАЗ СПАСИБО... - Chris 03.11.2013

comment

От 0,20 до 0,90 очень разные. На их сайте много хороших постов и видео, в том числе и о масштабировании. Я использую его на работе и постоянно учусь. - mconlin 03.11.2013

comment

классно-спасибо! - Chris 03.11.2013

comment

@mconlin действительно ли ES позволяет мне добавлять осколки на ходу? например, если я создам кластер из 10 узлов и 10 серверов, смогу ли я позже добавить еще 10 осколков с 10 связанными серверами? - Chris 03.11.2013

comment

да, очень легко добавить дополнительные узлы. Вы также можете запускать множество узлов на физической машине. Отличные видео здесь: elasticsearch.org/videos. - mconlin 03.11.2013

comment

Интересно, почему вы прямо упомянули разделение осколков как необходимую функцию. Хотя это кажется многообещающим, разделение сегментов действительно дорого и требует переиндексации части данных. Elasticsearch не позволяет разбивать осколки из-за этих недостатков, но предоставляет инструменты для масштабирования без разделения осколков. Взгляните на псевдонимы и это обсуждение. - javanna 04.11.2013

comment

@javaanna спасибо за ресурсы. Я поищу их! Ваше здоровье. - Chris 05.11.2013

Ответы (2)

arrow_upward
1
arrow_downward

DataStax Enterprise (DSE) не является «поисковой платформой» как таковой. Одной из функций, предоставляемых DSE, является возможность поиска данных, хранящихся в Cassandra. Cassandra используется для хранения операционных данных предприятия и доступа к ним. Идея состоит в том, что после того, как вы решили, что Cassandra является предпочтительным хранилищем данных для операционных данных вашего предприятия, интеграция DSE/Solr позволит вам выполнять расширенный поиск по этим данным.

Крупные предприятия стремятся перейти от традиционных реляционных баз данных к более современным платформам, таким как базы данных NoSQL, такие как Cassandra, где масштабируемость и распределенные вычисления (включая поддержку нескольких центров обработки данных, настраиваемую согласованность и надежные инструменты операций, включая графический интерфейс OpsCenter) приборная панель) это норма. Интеграция Solr с DSE облегчает эту миграцию.

Jack Krupansky 29.06.2014

arrow_upward
0
arrow_downward

Что касается вашего дохода, эта ссылка указывает на стартап-программу. Это делает программное обеспечение на 100% бесплатным, если вы соответствуете требованиям.

mattz62 11.11.2013

Неопределенный поисковый кластер (Solr, ES, Datastax EE)

Ответы (2)

Похожие вопросы