У меня есть денормализованная таблица продаж, которая выглядит так:
SalesKey, SalesOfParts, SalesOfEquipments, CostOfSales в качестве некоторых числовых показателей Отрасль, Страна, Штат, Площадь продаж, Идентификатор оборудования, Идентификатор клиента, год продажи, месяц продажи и некоторые другие аналогичные параметры. (Всего 12 измерений)
Мне нужно поддерживать агрегационные запросы по продажам, такие как общее количество продаж за год, месяц ... их общая стоимость и т. Д. Также эти агрегаты необходимо отфильтровать, то есть что-то вроде общих продаж в 2013 году, 04, принадлежащих производству промышленность клиента XYZ.
У меня есть эти таблицы размеров и факты в hive / impala.
Не думаю, что смогу сделать куб во всех измерениях. Я прочитал статью, чтобы узнать, как выполнять OLAP в нескольких измерениях: http://www.vldb.org/conf/2004/RS14P1.PDF
Что в основном предлагает материализовать кубы над небольшими фрагментами и выполнять какие-то вычисления во время выполнения, когда запрос охватывает несколько кубов.
Я не уверен, как реализовать эту модель в Hive / Impala. Любые указатели / предложения будут потрясающими.
РЕДАКТИРОВАТЬ: у меня около 10 миллионов строк в таблице продаж, и размеры не сопоставимы со 100, но составляют около 12 (может доходить до 15), но каждая из них имеет хорошую мощность.