Концепция, которую должен помнить каждый специалист по данным и исследователь машинного обучения

1. Введение

Линейная регрессия, вероятно, является одной из наиболее важных концепций в статистическом / машинном обучении, поскольку ее легко понять, реализовать и, что более важно, многие реальные ситуации можно моделировать либо как линейные, либо сводить к линейным с помощью соответствующих математических преобразований.

Когда мы выполняем статистическое / машинное обучение для набора (ов) данных, мы разделяем данные на обучающие и тестовые наборы данных. Очень важная величина, связанная с этим разделением, - это математическое ожидание функции стоимости в наборе (ах) тестовых данных, которое имеет большое значение в машинном обучении. В предыдущей статье я показал, как это математическое ожидание распределяется между различными величинами, такими как смещение и дисперсия, а в другой статье я показал, как распределяется ошибка смещения-дисперсии, на конкретных примерах с Python. Я бы порекомендовал взглянуть на эти статьи, чтобы понять логику многих математических выводов, которые я представляю ниже.

Как я показал в своих предыдущих статьях, которые были упомянуты выше, математическое ожидание функции стоимости тестовых данных определяется выражением

Теперь предположим, что кто-то хочет выполнить линейную регрессию (простую или многомерную) и задает вопрос: каково ожидаемое значение общей ошибки тестовых данных? В этой статье я покажу вам, что выражение для ошибки данных теста линейной регрессии действительно очень простое, что всегда должен помнить каждый специалист по данным и исследователь машинного обучения. В этой статье я предполагаю, что читатель знает статистическую теорию, линейную алгебру и исчисление. Сложность этой статьи находится на среднем и продвинутом уровне.

2. Базовая теория линейной регрессии.

Здесь я кратко изложу теорию множественной (или многомерной) линейной регрессии, которая будет очень полезна в следующих разделах. Для набора данных D = {y_i, x_ (i)} из n точек данных, где i = {1,…, n}, y_i - компоненты независимой переменной, а x_ (i) - вектор предиктора, соответствующий независимой переменной y_i , теория множественных линейных регрессий предполагает наличие линейной зависимости типа:

где вектор β - это вектор коэффициентов с компонентами p + 1, а векторы-предикторы x_ (i) иметь компоненты p + 1. Символ (T) в уравнении (2) представляет собой транспонирование вектора или матрицы. Здесь, в соответствии с моими предыдущими статьями, ε_i представляет переменные случайной ошибки или шума, которые считаются независимыми, одинаково распределенными гауссовскими переменными с нулевым средним и дисперсией σ².

Поскольку у нас есть n точек данных, на самом деле уравнение (2) образует систему линейных уравнений, которую можно записать в более компактной форме

где X матрица дизайна формы с n строками и p + 1 столбцами, ε - вектор столбца ошибок с компонентами n, а y - вектор столбца независимой переменной с n компонентов

Ключевой момент, о котором следует помнить, заключается в том, что уравнение (2) или (3) является нашим приближением к истинной линейной связи между предикторами и независимыми переменными. Это приближение, потому что оно включает член случайной ошибки. Цель состоит в том, чтобы найти вектор β с помощью процедуры минимизации, которую в этой статье я рассматриваю как процедуру обыкновенного метода наименьших квадратов (OLS). Эта процедура минимизации требует, чтобы евклидова норма члена ошибки была минимальной, а именно || ε || ² = || X β-y || ² = минимум.

Выполнив несколько простых вычислений, которые включают в себя вычисление евклидовой нормы || X β-y || ² и после минимизации, взяв частную производную по вектору β, получаем:

Уравнение (5) дает вектор θ, найденный с помощью метода минимизации OLS. Здесь я использую те же обозначения, что и в моей предыдущей статье, чтобы сохранить логическую последовательность выводов, которые я представляю ниже. В уравнении (5) важно то, что оно действительно только в том случае, если матричное произведение транспонированного X на X является обратимой матрицей. Обычно это верно, если n ›› p, а именно, гораздо больше строк, чем столбцов. Если матрица rank, rank (X) = p, то вектор θ в уравнении (5) равен уникальных посетителей, и если rank (X) ‹p ( что верно, когда p› n), то θ не уникален.

Существует несколько методов вычисления θ, которые можно разделить на прямые методы и итерационные методы. Прямые методы включают методы Холецкого и QR-факторизации, а итерационные методы включают методы Крылова и градиентного потомка. Я не обсуждаю эти методы в этой статье.

3. Ошибка данных теста линейной регрессии.

В этом разделе я покажу вам, как вычислить общую ошибку линейной регрессии на тестовых данных, и результат в конце может вас удивить. Как я показал в своей предыдущей статье, уравнение (1) - это одна из возможностей выразить усредненную ошибку тестовых данных через смещение, дисперсию и шум. Однако для целей этой статьи лучше использовать окончательную форму уравнения (5) моей предыдущей статьи, которую я пишу как:

Уравнение (6) представляет собой эквивалентную форму уравнения (1), приведенного выше в тексте. Следует обратить внимание на то, что сумма в уравнении (6) превышает контрольные точки данных, а не обучающие данные, а ожидаемое значение E (.) превышает набор данных D и экземпляр ошибки ε . Истинные и изученные функции, фигурирующие в уравнении (6) для многомерной линейной регрессии, задаются следующим образом:

где уравнение (7) I является единичной матрицей. Теперь я вставляю истинные и изученные функции во второй член в уравнении (6) и получаю (на данный момент я опускаю символ суммирования):

При выводе уравнения (8) я использовал различные свойства квадратных матриц, имеющих инверсию. Я не показываю здесь эти свойства, потому что предполагаю, что читатель их знает.

Теперь я хочу, чтобы вы обратили особое внимание на последний член в уравнении (8). Как вы можете видеть, в этих выражениях появляется математическое ожидание по наборам обучающих данных, и единственные переменные, которые зависят от набора обучающих данных, - это матрица дизайна X и ее транспонирование. Если наборы обучающих данных выбираются случайным образом из нормального распределения наборов данных, как это обычно бывает, тогда матрица X является случайной матрицей, которая зависит от обучающих данных.

Когда я вывел ошибку отклонения-смещения в моей предыдущей статье (уравнение (1) выше), я явно сказал, что для обучающих наборов данных было взято математическое ожидание, превышающее D, поскольку из-за случайности выбора этих наборы данных для обучения. Однако при выборе случайных наборов обучающих данных, в принципе, это также будет означать случайные наборы тестовых данных, если данные разделяются во время процедуры обучающего теста (например, 80% -20%) из тот же исходный набор данных. Это означает, что ожидаемое значение, превышающее D, может быть разделено как ожидаемое значение для обучающих и тестовых наборов данных:

Следующим шагом является вычисление математических ожиданий матриц в уравнении (9). Прежде чем проводить расчеты в явном виде, необходимо сделать несколько важных предположений. Эти предположения заключаются в том, что компоненты вектора предиктора обучающих и тестовых данных некоррелированы и нормально распределены со средним нулевым средним, E (x) = 0 и дисперсией, равной единице. . Это легко сделать путем стандартизации компонент случайных векторов, чтобы среднее значение было равно нулю, а дисперсия была равна единице. Здесь я предполагаю, что читатель знает эти процедуры.

Следующий шаг - посмотреть на форму матрицы X в выражении (4) и умножить ее на транспонирование. После умножения получается квадратная матрица с (p + 1) строками и столбцами. Первым элементом этой матрицы в левом верхнем углу является число n, и если разложить это число на множители вне матрицы, останется матрица, имеющая в качестве элементов среднее арифметическое, среднее квадратов и взаимная корреляция каждого компонента предиктора. На этом этапе используется теорема о больших случайных числах, которая гласит, что для n очень больших или бесконечных среднего арифметического случайных величин можно аппроксимировать средним (= E (x)), который в нашем случае по предположению равен нулю. Кроме того, с учетом того факта, что компоненты вектора не коррелированы и имеют единичную дисперсию, обратное произведение X, транспонированного на X, будет для n очень большой, равный 1 / n умноженному на (p + 1) единичную матрицу. Используя эти аргументы, я получаю:

Теперь, используя уравнение (10) в уравнении (8) и после замены результата в уравнении (6) и суммирования по точкам тестовых данных N, я получаю следующий окончательный результат:

4. Выводы

В этой статье я показал вам, как можно рассчитать общую ошибку тестовых данных для множественной линейной регрессии в машинном обучении. Окончательный результат представлен в уравнении (11), и, как я уже упоминал выше, его выражение очень простое и зависит от числа обучающих данных (n), числа тестовых данных (N ) и количество предикторов (p). Модель статистического / машинного обучения «обучается» хорошо только в том случае, если N (p + 1) / n очень близко к нулю, что может произойти, когда n ›› N (p + 1). Можно поиграться с комбинацией этих чисел, чтобы максимально уменьшить общую ошибку тестовых данных.

Важно напомнить все предположения, сделанные при выводе уравнения (11). Эти допущения: переменные случайной ошибки ε_i независимы и одинаково распределены (i.i.d) с нулевым средним и дисперсией σ². Компоненты вектора предикторов случайных обучающих и тестовых данных независимы, нормально распределены с нулевым средним и дисперсией, равной единице, и не зависят от ε_i. Другое важное предположение состоит в том, что число предиктора обучающих данных (n) должно быть очень большим числом.

Ясно, что читатель должен также помнить о предположениях, сделанных в разделе 2, где я обсуждал теорию многомерной линейной регрессии.

Если вам понравилась моя статья, поделитесь ею со своими друзьями, которые могут быть заинтересованы в этой теме, и цитируйте / ссылайтесь на мою статью в своих исследованиях. Не забудьте подписаться на другие связанные темы, которые будут опубликованы в будущем.