Время индексации Solr

Solr 1.4 отлично справляется с индексированием на выделенном физическом сервере (Windows Server 2008). Для индексирования около 1 миллиона полнотекстовых документов (размером около 4 ГБ) требуется около 20 минут с размером кучи = 512 МБ - 1 ГБ и 4 ГБ ОЗУ.

Однако при использовании Solr на виртуальной машине с 4 ГБ ОЗУ в первый раз для индексации потребовалось 50 минут. Обратите внимание, что нет сетевых задержек и проблем с оперативной памятью. Теперь, когда я увеличил ОЗУ до 8 ГБ и увеличил размер кучи, время индексации увеличилось до 2 часов. Это было действительно странно. Обратите внимание, что кроме SQL Server нет других запущенных процессов. Нет сетевых задержек. Однако я не проверял файловый ввод-вывод. Может ли это быть узким местом? Есть ли у Solr какие-либо проблемы с работой в среде «виртуализации»?

Сегодня я прочитал статью Брайана и Гарри: «О ВРЕМЕНИ ОТВЕТА ПОИСКОВОГО ДВИГАТЕЛЯ SOLR В ВИРТУАЛИЗИРОВАННОЙ СРЕДЕ», и они утверждают, что производительность ухудшается при увеличении ОЗУ при запуске Solr на виртуальной машине, но это касается запросов. раз, а не время индексации.

Я немного смущен тем, почему на виртуальной машине потребовалось больше времени, когда я повторил тот же тест во второй раз с увеличенным размером кучи и ОЗУ.


person Yavar    schedule 10.11.2011    source источник


Ответы (1)


Ввод-вывод на виртуальной машине всегда будет медленнее, чем на выделенном оборудовании. Это связано с тем, что диск виртуализирован, и операции ввода-вывода должны проходить через дополнительный уровень абстракции. Индексирование требует интенсивных операций ввода-вывода, поэтому неудивительно, что на виртуальной машине оно выполняется медленнее. Я не знаю, почему добавление ОЗУ вызывает замедление.

person Mike Sokolov    schedule 10.11.2011