Факторы, ограничивающие скорость Presto?

Я только что установил Presto сегодня на нашем рабочем сервере (версия 0.57) и при выполнении select count (*) из журнала; для таблицы, содержащей всего 640 миллионов записей (~ 64 ГБ), требуется более 17 минут.

У меня сложилось впечатление, что это слишком медленно для presto, но я не уверен.

Некоторая информация:

И Hive, и Presto были установлены с конфигурациями по умолчанию из их документации.

Таблица Hive - это внешняя таблица с примерно 24 столбцами, большинство из которых String, а 3 из них - Array, а файл хранится как Textfile (Hive по какой-то причине жалуется на RCFile с моим файлом).

Таблица будет в основном использоваться для операций группировки и подсчета.

Есть ли у вас какие-либо советы по увеличению производительности или какое время запроса должно быть для простого подсчета (*) таблицы?

Ваше здоровье

hive presto

darkownage 27.01.2014 источник

Ответы (1)

arrow_upward
1
arrow_downward

Вам следует решить вашу проблему с помощью RCFile. Использование RCFile значительно увеличит производительность (разработчики говорят, что x2 - x4 соответствуют моему опыту). Попробуйте преобразовать его с помощью CREATE TABLE <new rcfile table name> AS SELECT * FROM <old textfile table name>; в Presto. (Убедитесь, что на диске достаточно места.)

Jan Martin Keil 11.07.2014

Факторы, ограничивающие скорость Presto?

Ответы (1)

Похожие вопросы