Прогнозирование рейтинга в неотрицательной матричной факторизации

Я слежу за этим блогом http://www.quuxlabs.com/blog/2010/09/matrix-factorization-a-simple-tutorial-and-implementation-in-python/ (также прикрепляя матрицу здесь) для оценки прогнозирование с использованием матричной факторизации. Изначально у нас есть разреженная матрица пользователя-фильма R.

введите описание изображения здесь

Затем мы применяем алгоритм MF, чтобы создать новую матрицу R ', которая является произведением двух матриц P (UxK) и Q (DxK). Затем мы «минимизируем» ошибку в значении, указанном в R и R '. Пока все хорошо. Но на последнем этапе, когда матрица заполняется, я не настолько уверен, что это прогнозируемые значения, которые даст пользователь. Вот итоговая матрица:

введите описание изображения здесь

На чем основано обоснование того, что это на самом деле «прогнозируемые» рейтинги. Кроме того, я планирую использовать матрицу P (UxK) в качестве скрытых функций пользователя. Можем ли мы как-то «оправдать», что это скрытые особенности пользователя?


person techriften    schedule 23.11.2016    source источник


Ответы (1)


Обоснование использования полученных векторов для каждого пользователя в качестве векторов скрытых признаков состоит в том, что использование этих значений скрытых скрытых признаков будет минимизировать ошибку между прогнозируемыми оценками и фактическими известными оценками.

Если вы посмотрите на прогнозируемые рейтинги и известные рейтинги на двух опубликованных вами диаграммах, вы увидите, что разница между двумя матрицами в ячейках, общих для обеих, очень мала. Пример: U1D4 равен 1 на первой диаграмме и 0,98 на второй.

Поскольку функции или вектор скрытых черт пользователя дают хорошие результаты по известным рейтингам, мы думаем, что он хорошо справится с прогнозированием неизвестных оценок. Конечно, мы используем регуляризацию, чтобы избежать переобучения обучающих данных, но это общая идея.

person Eridanus    schedule 03.07.2017