Распространяется ли масштабируемость SolrCloud на индексацию?

Во всей литературе, которую я видел, масштабируемость SolrCloud касается только запросов. Это означает, что репликация и сегментирование распределяют нагрузку клиентских запросов по большему ЦП и более широкой полосе пропускания.

Но как насчет индексации?

Улучшает ли масштабируемость SolrCloud производительность индекса? Можно ли настроить его для ускорения времени индексации? В моем случае нам нужно часто добавлять новый контент в индекс; этот частный случай что-то меняет.

Увлекательная презентация Марка Миллера на Lucene Revolution 2012 содержит некоторые детали индексирования. Но кажется, что некоторые облачные функции (такие как репликация) могут замедлить индексирование, а не ускорить его. Кто-нибудь пробовал SolrCloud?


person ted.strauss    schedule 21.11.2012    source источник
comment
Я пробовал solrcloud в течение некоторого времени, но, честно говоря, не могу сказать, что доволен им. у него есть некоторые странности, вы можете найти один, который я придумал здесь: stackoverflow.com/questions/13485885/ . для ускорения индексации можно поиграться с конфигами. Я не думаю, что solrcloud замедлит индексацию, но обычно это связано с конфигурациями.   -  person denizdurmus    schedule 23.11.2012


Ответы (2)


Что ж, наконец-то я могу настроить подходящую облачную среду для тестирования, и вкратце скажу, что скорость индексации обречена даже с RAMDirectory. Я не знаю, может ли скорость индексации быть связана с количеством подписчиков в облаке или количеством коллекций, но наличие структуры 1 лидер 2 подписчика с 8 коллекциями делает индексацию в 4-5 раз медленнее. Я могу проиндексировать около 3,5 млн документов за 17 минут, в то время как с теми же конфигурациями для каждого экземпляра в облаке я могу проиндексировать только 650 тыс. документов за 17 минут... Я не знаю, как ускорить скорость индексации SolrCloud и что-то в этом роде. Удивлен, увидев, что мои ожидания от облака рушатся одно за другим, поскольку я продолжаю получать новые ошибки и проблемы, работая над ним.

Если это происходит и на любых других настройках, я не понимаю, какой смысл использовать облако для Solr. Я имею в виду, что если скорость индексации так сильно возрастет, я смогу переиндексировать все на классическом автономном экземпляре solr намного быстрее.

Было бы очень приятно увидеть некоторые другие опыты с SolrCloud, если бы кто-нибудь попробовал это или у кого-то это было в реальной среде.

person denizdurmus    schedule 27.11.2012
comment
сколько узлов у вас в облаке? не могли бы вы поделиться конфигурацией оборудования? Я борюсь с увеличением скорости приема :( - person Rahul Sharma; 23.01.2016
comment
@RahulSharma уже давно я перестал тестировать вышеуказанное состояние, поэтому не помню подробностей о конфигурациях и аппаратном обеспечении: / Если вы создадите вопрос с подробностями, то, возможно, я смогу помочь или, по крайней мере, другие люди здесь обязательно помогут помощь... - person denizdurmus; 24.01.2016
comment
спасибо @Stephan, я задал вопрос о том же, но пока не получил ответа - stackoverflow.com/questions/34936008/ - person Rahul Sharma; 25.01.2016

Какую версию solr вы используете для облака solr? Облако Solr очень стабильно с момента выпуска solr 4.8.

  1. Вы можете увеличить скорость индексации, не делая частых жестких фиксаций документов, а фиксируя их партиями, т. е. через 45 или 60 секунд. Этого можно добиться с помощью конфигурации автоматической фиксации в solr config —

  2. Хотя жесткая фиксация гарантирует, что данные будут сброшены в стабильное хранилище, она не делает изменения видимыми, что достигается с помощью тега мягкой фиксации. Установите значение мягкой фиксации около 90-120 с. Это также может быть достигнуто с помощью конфигурации мягкой фиксации в конфигурации solr -

person Vijay Tiwary    schedule 19.01.2015