измерения, внешние ключи, реляционные данные

в чем разница между отношением реляционной базы данных и измерением, представленным на звездообразной диаграмме?

В рамках задания у меня есть дизайн реляционного хранилища данных, где большинство таблиц нормализовано с использованием схемы отношений «многие ко многим», «один к одному», «один ко многим» (я думаю, что это правильная терминология? Пожалуйста, поправьте меня, если я ошибаюсь). неправильный). Следующий шаг — начертить звездообразную диаграмму, которую можно было бы использовать в среде интеллектуального анализа данных, что, как я полагаю, означает таблицу фактов, основанную на разных измерениях...

Я немного запутался, потому что 1. любой анализ данных, о котором я мог подумать, мог быть взят из реляционной базы данных, так какой смысл ее реструктурировать? и 2. Если некоторые из таблиц, из которых вы хотите получить данные, содержат внешние ключи, как вы разделите их на измерения.

например: у меня есть эти отношения:

Courses {course_id, description}
Modules {module_id, description}
Course_modules {course_id, module_id}
Students {student_id, address, enrollment_option, enrollment_date, name, surname, nationality, home_language, gender ...}
Module_grades {student_id, module_id, assignment_1, assignment_1_sub_date, assignment_2, assignment_2_sub_date, exam, exam_date, overall_result}

и я хотел бы знать, как результаты курса соотносятся с оценками по модулям. С реляционной базой данных я бы запросил соединение таблицы, содержащей информацию о студентах, с таблицей оценок модуля. Что было бы эквивалентно измерениям и отчетам? Тем более, что я использую несколько столбцов в качестве первичного ключа в отношении оценок.


person Zach Smith    schedule 26.08.2014    source источник


Ответы (1)


Рабочая база данных сильно нормализована, что повышает производительность записи и сводит к минимуму аномалии записи. Он предназначен для облегчения обработки транзакций.

аналитическая база данных (хранилище данных) в значительной степени денормализована, что повышает производительность чтения и упрощает понимание для пользователей, не являющихся администраторами баз данных. Он предназначен для облегчения анализа.

в чем разница между отношением реляционной базы данных и измерением

Хранилище данных может быть в реляционной базе данных, а может использовать ее отношения (таблицы), так что разницы нет.

любой анализ данных, о котором я мог подумать, мог быть взят из реляционной базы данных, так какой смысл ее реструктурировать?

Хранилище данных часто включает данные из многих источников, а не только из вашей рабочей базы данных. Примеры: электронная почта, просмотр веб-сайтов.

Если вы скажете своему боссу присоединиться к десяти столам, чтобы провести простой анализ, вас уволят.

Если некоторые из таблиц, из которых вы хотите получить данные, содержат внешние ключи, как вы разделите их на измерения.

Это полностью зависит от того, что вы пытаетесь анализировать, но в целом вы денормализуете и копируете данные в таблицы измерений.

Объемный дизайн

Вам нужно начать с процесса или события, которое вы хотите проанализировать.

Используйте Эксель. Добавьте все столбцы, которые имеют отношение к вашему анализу. Например, если вы анализируете процесс посещения людьми вашего веб-сайта, каждая строка в Excel будет представлять посещение сайта, а столбцы могут быть такими: время начала, количество посещенных страниц, первая страница, последняя страница и т. д.

Теперь выполните ОДИН уровень нормализации. Найдите категориальные столбцы, которые можно сгруппировать (например, информацию о веб-браузере пользователя). Они будут помещены в таблицу параметров браузера. Найдите (истинные) числовые значения, которые вы не можете нормализовать. Это меры. Например, количество посещенных страниц.

Показатели и ключи, которые ссылаются на ваши таблицы измерений, являются вашей таблицей фактов.

Теперь прочитайте эту книгу.

person Neil McGuigan    schedule 27.08.2014