Хи-квадрат и zscore - какой выбрали?

Я отправил вопрос на обмен стеками статистики, но, к сожалению, не получил ответа до сих пор, поэтому я клонирую его здесь и надеюсь, что кто-то может помочь.

Я новичок в машинном обучении. Недавно я попытался узнать что-то об этом и получил следующее беспокойство:

У меня есть продукты, классифицированные по категориям. Также у меня есть пользователи с информацией о поле и модели устройства.

Во-первых, я сделал тест хи-квадрат, чтобы проверить, связаны ли категории и информация о поле + устройстве. Например, мое значение p равно 0,000012, поэтому я заявил, что пользователь (пол + устройство) связан с категориями.

Итак, если новый пользователь пришел со своим полом (женский) + устройство (iPhone):

  1. Как результат теста хи-квадрат, должна быть связь между полом + устройством и категориями. Поэтому я выбираю 10 лучших категорий, которые потребляют женщины, использующие iPhone. У меня есть список, например. [1. Мода, 2. Мобильные устройства, 3. Фотокамеры, 4. Мебель для дома, 5. Велосипеды и т. д.]

  2. Я также делаю z-тест по категориям (без какой-либо информации о пользователе) и получаю список (более высокий z-показатель будет сверху), например. [1. Мобильные устройства, 2. Велосипеды, 3. Мода, 4. Ноутбуки и т. д.]

Итак, в этом случае, какой список я должен дать этому пользователю? Или есть возможность их комбинировать? Или я что-то не так сделал?

Заранее спасибо :-)


person khoi nguyen    schedule 25.11.2014    source источник


Ответы (1)


Строго говоря, ни один из тестов не подходит. В обоих тестах у вас есть нулевая гипотеза (о том, что пол и модель не связаны с категорией), и вы пытаетесь найти вероятность того, что эта гипотеза неверна. Однако эти два теста являются параметрическими тестами, то есть для того, чтобы результаты были правильными, вы должны знать, что вероятность следует определенному распределению (хи-квадрат и нормальное распределение соответственно). В вашем случае вы не можете сделать такое предположение, поэтому тесты не подходят. Если вы хотите использовать тесты значимости, вам следует использовать непараметрические тесты, наиболее распространенными из которых являются тесты Уилкоксона и Фридмана. Однако тесты значимости обычно используются после того, как задача решена, чтобы проверить, можно ли объяснить достигнутые результаты удачей. Они не используются для решения проблемы.

Если вы хотите найти корреляцию между полом, моделью и категорией, вам следует использовать некоторый коэффициент корреляции, такой как корреляция Пирсона и внутриклассовая корреляция. Однако вы не описали свои данные подробно, поэтому я не уверен, чего вы пытаетесь достичь. Основываясь только на поле и модели, вероятно, самое безопасное и простое, что вы можете сделать, — это вернуть наиболее посещаемые категории (количество вхождений) женщинами, использующими iPhone.

person blue_note    schedule 25.11.2014
comment
Спасибо за Ваш ответ. 1. Не могли бы вы объяснить, почему два моих данных не являются квадратным/нормальным распределением? Я не уверен, что использование двух пользовательских данных устройства + пола в качестве параметров для теста хи-квадрат является правильным или нет (не могли бы вы объяснить, почему это не должно быть правильным?). Но как насчет z-теста для количества пользователей, потребляющих категории? Насколько я понимаю, это, вероятно, нормальное распределение. 2. Да, выбирать наиболее посещаемые категории безопасно и просто, но это может быть не лучшим выбором для пользователя? Любой другой совет? Огромное спасибо :-) - person khoi nguyen; 26.11.2014
comment
1) Оба теста, которые вы используете, являются тестами статистической значимости, и они используются для проверки того, следуют ли две переменные одному и тому же распределению. В основном они используются для сравнения наборов результатов, а не для поиска корреляций. Чтобы найти корреляцию, наиболее распространена метрика Пирсона. 2) Поскольку z-тест сравнивает два набора переменных, я не знаю, как можно объединить пол и телефон в одном атрибуте. Однако ни один из них не следует нормальному распределению (поскольку они неупорядочены, номинальные значения). - person blue_note; 27.11.2014
comment
1. Я слышал о корреляции Пирсона, но не думаю, что она применима в моем случае. Не могли бы вы объяснить, как? 2. Нет, я делал z-показатели отдельно по полу и моделям телефонов по количеству потребления каждой категории. Однако я никогда не думал, что элементы нормального распределения должны быть заказаны: S - person khoi nguyen; 27.11.2014