ПРЕДИСЛОВИЕ:
Этот вопрос не требует открытого сравнения Elastic Search, Solr и Datastax Solr (Datastax EE). (Хотя ссылки в разделе комментариев приветствуются).
ПРОЕКТ:
Я некоторое время создавал веб-службу типа доменного имени. При этом я осознаю экспоненциальный рост таких услуг.
ОБЩАЯ ИНФОРМАЦИЯ:
Я хотел бы знать, какая конкретная поисковая платформа позволяет мне сохранять и расширять до бесконечности. Да, я понимаю, что в наши дни вы можете разделить Solr Shard — поэтому, если у меня есть 20 solr cloud из 20 осколков, я могу позже разделить их на 40 (я думаю? Опять же... это не неопределенно). Не уверен насчет Elastic Search. Datastax (EE), кажется, является ответом из-за архитектуры Cassandra, но (A) поскольку они не обеспечивают прозрачности цен на лицензии — и я должен раскрывать свои заработок для них. Мне быстро напомнили о стратегии Oracle "выкачать вас медленно", и поскольку я начинаю, это является огромным сдерживающим фактором. Кроме того, (B) Когда они говорят, что полностью интегрируют MapReduce с Hive, Sqop, Mahout, Solr и Pig — я думаю, что не хочу тратить всю жизнь на изучение наворотов, которые не применимы к моему проекту. Мне нужна поисковая платформа, на которой я могу добавлять 2 миллиарда документов в месяц (или любое другое число) бесконечно долго и не беспокоиться о том, что я запустил кластер со слишком маленькими сегментами.
ВОПРОС:
По общему признанию, мой фоновый раздел украден из-за невежества, которое я хотел бы исправить. Я не намерен оскорблять или разбавлять эти удивительные технологии. Мне просто интересно, какие из них могут масштабироваться, не беспокоясь о разрастании осколков [Я убрал здесь слово навсегда — спасибо за комментарий ниже]. Или может любой? Не по железу, а по осколкам. Какую платформу я могу использовать и не беспокоиться о будущем росте, будь то 20 ТБ или 2 ПБ. Предположим, что бюджет оборудования для серверов, коммутаторов и т. д. не определен.