Уважаемое сообщество,
Надеюсь, заголовок дает вам намек на то, о чем я хочу поговорить или мне нужен совет.
Я разработчик бизнес-аналитики с 3-летним опытом работы над крупными проектами бизнес-аналитики — некоторые из них были в сфере здравоохранения, а некоторые — в финансовой отрасли, когда я работал в IBM. На своей текущей работе я пришел в стартап-компанию, у компании есть оперативная БД по назначению продукта и данные находятся на БД SQL Server.
В течение 4 месяцев я тушил пожары по поводу всей массы, которую сделал мой предшественник, и теперь я готов к следующему шагу - моделированию операционных таблиц БД для БД DWH, чтобы иметь возможность извлекать и использовать данные для аналитических целей и целей BI.
У меня вообще нет никаких ресурсов, поэтому я сначала создам DWH на рабочей БД, а затем мое видение состоит в том, что DWH будет на БД Snowflake после того, как я получу ресурсы от своего технического директора.
Проблема моделирования.
Когда я решал проблему моделирования данных, я столкнулся с некоторой путаницей в правильном способе моделирования данных. Есть традиционный способ, которым я знаком с IBM, но есть моделирование Cloud DWH и гибридный подход. Моя модель должна быть гибкой, а данные должны извлекаться очень быстро.
Каков наилучший способ хранения и извлечения данных для аналитических целей?
Таблицы фактов с большим количеством измерений — нормализация подхода
ИЛИ
размещение всех данных, которые мне нужны с точки зрения детализации, в одно и то же время table (думая о будущем, переходя к Snowflake) У меня будет несколько таблиц, каждая с одной гранулярностью и своим миром.
Мне просто интересно услышать, что некоторые из вас реализовали в вашей компании, и если у вас есть совет или UC, которым вы можете поделиться, я много искал в Интернете, и то, что я увидел, представляет собой много предвзятой информации и очень запутанной - никто не действительно говоря, что работает в реальном мире.
Заранее спасибо!