Факторы, ограничивающие скорость Presto?

Я только что установил Presto сегодня на нашем рабочем сервере (версия 0.57) и при выполнении select count (*) из журнала; для таблицы, содержащей всего 640 миллионов записей (~ 64 ГБ), требуется более 17 минут.

У меня сложилось впечатление, что это слишком медленно для presto, но я не уверен.

Некоторая информация:

И Hive, и Presto были установлены с конфигурациями по умолчанию из их документации.

Таблица Hive - это внешняя таблица с примерно 24 столбцами, большинство из которых String, а 3 из них - Array, а файл хранится как Textfile (Hive по какой-то причине жалуется на RCFile с моим файлом).

Таблица будет в основном использоваться для операций группировки и подсчета.

Есть ли у вас какие-либо советы по увеличению производительности или какое время запроса должно быть для простого подсчета (*) таблицы?

Ваше здоровье


person darkownage    schedule 27.01.2014    source источник


Ответы (1)


Вам следует решить вашу проблему с помощью RCFile. Использование RCFile значительно увеличит производительность (разработчики говорят, что x2 - x4 соответствуют моему опыту). Попробуйте преобразовать его с помощью CREATE TABLE <new rcfile table name> AS SELECT * FROM <old textfile table name>; в Presto. (Убедитесь, что на диске достаточно места.)

person Jan Martin Keil    schedule 11.07.2014