Я только что установил Presto сегодня на нашем рабочем сервере (версия 0.57) и при выполнении select count (*) из журнала; для таблицы, содержащей всего 640 миллионов записей (~ 64 ГБ), требуется более 17 минут.
У меня сложилось впечатление, что это слишком медленно для presto, но я не уверен.
Некоторая информация:
И Hive, и Presto были установлены с конфигурациями по умолчанию из их документации.
Таблица Hive - это внешняя таблица с примерно 24 столбцами, большинство из которых String, а 3 из них - Array, а файл хранится как Textfile (Hive по какой-то причине жалуется на RCFile с моим файлом).
Таблица будет в основном использоваться для операций группировки и подсчета.
Есть ли у вас какие-либо советы по увеличению производительности или какое время запроса должно быть для простого подсчета (*) таблицы?
Ваше здоровье