Сколько данных мне нужно для рекомендательной системы?

Мне нужно разработать онлайн-тест на пригодность личности/работы для отдела кадров. По сути, пользователи будут отвечать на вопросы, например, по шкале от 0 до 10, и после, скажем, 50 вопросов я хочу перевести это в рейтинг по 5 различным характеристикам личности / пригодности для работы.

У меня нет реальных данных для начала, поэтому, во-первых, стоит ли вообще использовать механизм рекомендаций, такой как MyMediaLite (github). Сколько семплов мне понадобится, чтобы обучить его достойной производительности?

Ранее я создал рекомендатель учебных курсов, просто выполнив взвешенную вручную сумму, где каждый вопрос увеличивал вес нескольких курсов, связанных с этим вопросом. Это была экспертная система, построенная как нейронная сеть с прямой связью, где я лично настраивал все веса, исходя из своих знаний вопросов и содержания курсов.

Я хотел бы на этот раз использовать рекомендательную систему, но мне интересно, сколько раз мне придется проходить тест из 50 вопросов, а затем назначать результаты вручную. хватит ли 100 примеров? это возможно. 1000 будет слишком долго. Как я могу знать заранее?


person AwokeKnowing    schedule 12.08.2013    source источник


Ответы (1)


Хотя это бесполезно, я хочу сказать, что это невозможно дать определенное число. Вы должны сосредоточиться на кривой обучения при добавлении новых образцов.

Вы можете обрабатывать образцы вручную и с помощью двигателя параллельно и сравнивать результат, полученный обоими. После измерения, например. отзыв и точность результата, выдаваемого движком, соответствуют вашим ожиданиям, тогда вы получите достаточно образцов.

Надеюсь, это полезно!

person charmpeach    schedule 19.08.2013
comment
Спасибо, я знаю, что это был расплывчатый вопрос. Я подумал, что кто-то мог сделать что-то подобное и мог бы сказать мне, как количество параметров связано с количеством необходимых образцов. - person AwokeKnowing; 19.08.2013