Наука о данных

Нормальное распределение

Важнейшее распространение в науке о данных

Есть причина, по которой нормальное распределение называется «нормальным». Его присутствие можно ощутить во всех областях науки о данных и машинного обучения, а также во множестве неожиданных реальных сценариев. От распределения по росту и весу до объема молока, собранного у коров, и до оценок SAT - нормальное распределение, по-видимому, присутствует повсюду!

Немного истории

Карл Фридрих Гаусс впервые описал нормальное распределение в эссе, посвященном методам наименьших квадратов и максимальной вероятности, выпущенному в 1809 году. Хотя история дала Гауссу права на именование (в конце концов, это называется распределением Гаусса), именно Пьер-Симон Лаплас, построивший на основе Гаусса: работы, сформулировал Центральную предельную теорему (ЦПТ). CLT - это ключевая статистическая концепция, которая описывает поведение независимых случайных величин, стремящихся к нормальному распределению при суммировании, даже если лежащее в основе распределение само по себе не является нормальным.

Попробуйте этот интерактивный апплет, чтобы поиграть с ним!

Термин «нормальный» здесь на самом деле относится к нормированной сумме этих независимых случайных величин и не означает, что распределение Гаусса является «нормальным» или базовым распределением, что другие распределения затем считаются «ненормальными» (это было немного шутка ранее).

Описание нормального распределения

Нормальное распределение имеет несколько характеристик, которые делают его очень полезным:

  1. Симметричный относительно среднего
  2. Среднее, медиана, мода равны
  3. Площадь под кривой = 1
  4. Эмпирическое правило: 68/95 / 99,7 (мы еще вернемся к этому)

Нормальное распределение можно описать всего двумя параметрами, средним значением и стандартным отклонением, которые выражаются греческими буквами mu (μ) и сигма (σ). Его функция плотности вероятности представлена ​​здесь:

Если этот PDF-файл для вас ничего не значит, ознакомьтесь с моим предыдущим блогом о функциях вероятности, массы и плотности здесь! Эта современная форма с использованием сигмы (σ) была популяризирована Карлом Пирсоном в 1915 году.

Изменяя среднее значение и стандартное отклонение, мы можем изменить форму и расположение распределения. Изменение среднего значения сдвигает кривую вдоль числовой линии, а изменение стандартного отклонения растягивает или сжимает кривую.

Стандартное нормальное распределение

Стандартное нормальное распределение - это частный случай, когда μ = 0 и σ = 1. Этот случай изображен ниже.

Эмпирическое правило

Я упомянул правило 68/95 / 99.7 выше, но давайте углубимся. Это правило гласит, что 68% наблюдений находятся в пределах ± 1 стандартного отклонения от среднего, 95% наблюдений находятся в пределах ± 2 стандартного отклонения от среднего и 99,7% наблюдений находятся в пределах ± 3 стандартного отклонения от среднего. Эти значения становятся очень важными во время проверки гипотез.

Значения за пределами ± 3 стандартного отклонения составляют менее 0,3% наблюдений и, в зависимости от ситуации, могут рассматриваться как выбросы или шум сигнала. По сути, по мере того, как значения, о которых идет речь, удаляются от среднего, становится менее вероятным, что наблюдение принадлежит этому распределению.

При стандартном нормальном распределении мы можем использовать стандартную оценку или z-оценку для вычисления вероятности того, что данное значение происходит из данного распределения, или для сравнения значений из разных раздачи.

Вот ресурс для таблицы z-значений.

Любое нормальное распределение можно преобразовать в стандартное нормальное распределение с помощью следующего уравнения, где x - значение из исходного нормального распределения. Вот почему стандартное нормальное распределение иногда называют z-распределением. Каждое исходное X (исходное значение) было преобразовано в Z (стандартное отклонение от среднего) путем вычитания среднего и деления на стандартное отклонение.

Пример

Допустим, у нас есть нормальное распределение массы взрослого человека со средним значением 80 кг и стандартным отклонением 5 кг. Если у нас есть взрослый с массой X = 85 кг, то Z = 1 (85–80 / 5). Эта масса составляет 1 стандартное отклонение от среднего.

Это уравнение может быть полезно при попытке найти выбросы в необработанных данных, но вы всегда должны внимательно изучать свои данные, прежде чем удалять данные, которые не сразу соответствуют желаемому распределению.

Например, если в наших данных у нас есть группы масс около 60 кг, мы могли бы вычислить, что эти наблюдения составляют около 4 стандартных отклонений от среднего значения 80 кг. Вероятность того, что эти значения принадлежат этому распределению, довольно мала (P = 0,00003)! После дальнейшего изучения этого вопроса, возможно, мы обнаружим, что некоторые детские массы были случайно включены в набор данных.

Стандартизация данных

Этот процесс преобразования исходных значений в стандартное нормальное распределение называется стандартизацией данных и очень важен для моделей машинного обучения. Именно так мы справедливо сравниваем функции с разностными распределениями и масштабами, не придавая неправильного значения функциям с большими необработанными значениями. Например, если мы хотим увидеть, как потребление белка и фруктов влияет на его здоровье, мы не хотим рассматривать 50 граммов белка как на порядок более важные, чем 3 порции фруктов, только потому, что сырьевая ценность больше. Если мы стандартизируем обе функции, мы можем обнаружить, что фрукт на самом деле оказывает большее влияние на здоровье, чем белок!

Вывод

Конечно, есть еще много приложений нормального распределения, о которых мы поговорим позже, например, в распределении остатков для моделей линейной регрессии. Нормальное распределение проявляется практически во всем, что вы делаете как специалист по данным, поэтому я надеюсь, что этот обзор был полезен. И, опять же, я исследовал функции вероятности различных распределений, если вы хотите погрузиться еще глубже!

Соединять

Я всегда ищу возможности познакомиться и изучить другие проекты! Код для создания различных визуализаций в этой статье можно найти здесь.

LinkedIn | Средний | GitHub