Статистика – это раздел математики, который занимается сбором, анализом, интерпретацией и представлением числовых данных. В науке о данных статистика используется для извлечения идей и значимой информации из больших объемов данных.

В этой статье мы рассмотрим предварительную статистику. Если вы пропустили часть 1 и часть 2, вы можете найти ее здесь.

Основы статистики для науки о данных — от основ до продвинутого уровня — часть 1

Основы статистики для науки о данных — от основ до продвинутого уровня — часть 2

Сюжет QQ

График QQ (график Quantile-Quantile) — это графический инструмент, используемый для сравнения распределения выборки с теоретическим распределением. Это тип вероятностного графика, который может помочь оценить, происходит ли выборка данных из определенного распределения, такого как нормальное распределение, или выявить любые различия между двумя распределениями.

На графике QQ квантили выборочных данных отображаются против квантилей теоретического распределения. Если данные выборки следуют теоретическому распределению, точки на графике должны располагаться на прямой линии. Однако, если данные выборки отличаются от теоретического распределения, точки на графике будут отклоняться от прямой линии.

Графики QQ особенно полезны для проверки предположения о нормальности в статистическом анализе, поскольку они могут помочь определить, являются ли данные выборки нормально распределенными или нет. Их также можно использовать для сравнения других типов распределений, таких как экспоненциальное, равномерное или распределение Пуассона, с выборкой данных.

Распределение Бернулли и биномиальное распределение

Биномиальное распределение также представляет собой дискретное распределение вероятностей, которое моделирует вероятность серии независимых бинарных событий только с двумя возможными исходами. Он описывает количество успехов в фиксированном количестве испытаний. Распределение характеризуется двумя параметрами: n — число испытаний и p — вероятность успеха в каждом испытании. Функция распределения выглядит следующим образом:

P(X=x) = nCx * p^x * (1-p)^(n-x)

где X — случайная величина, представляющая количество успешных попыток в n испытаниях, а nCx — количество способов выбрать x элементов из набора из n элементов.

Таким образом, распределение Бернулли используется для моделирования одного бинарного события, а биномиальное распределение используется для моделирования вероятности серии независимых бинарных событий с фиксированным числом испытаний.

Журнал нормального распределения

Логарифмически нормальное распределение — это непрерывное распределение вероятностей случайной величины, логарифм которой распределен нормально. Другими словами, если вы берете натуральный логарифм случайной величины X и результат имеет нормальное распределение, то говорят, что X имеет логарифмически нормальное распределение.

Логарифмически нормальное распределение часто используется для моделирования поведения только положительных переменных, таких как доход, цены акций и другие финансовые переменные. Распределение имеет положительную асимметрию, что означает, что оно скошено вправо и имеет длинный хвост.

Функция плотности вероятности (PDF) логарифмически нормального распределения определяется как:

f(x) = (1 / (x * сигма * sqrt(2 * pi))) * exp(-((ln(x) — мю)²) / (2 * сигма²))

где x — случайная величина, mu — среднее значение логарифма x, сигма — стандартное отклонение логарифма x, а pi — математическая константа pi.

Кумулятивная функция распределения (CDF) логарифмически нормального распределения недоступна в закрытой форме, но ее можно аппроксимировать с помощью численных методов.

Распределение по степенному закону

Распределение по степенному закону — это тип распределения вероятностей, который описывает отношение между двумя переменными, в котором одна переменная пропорциональна степени другой. Распределение по степенному закону также известно как распределение Парето или распределение с длинным хвостом.

В распределении по степенному закону частота события пропорциональна его величине, возведенной в отрицательную степень. Это означает, что несколько крупных событий встречаются гораздо чаще, чем множество мелких, а распределение имеет длинный хвост, уходящий в бесконечность. Распределения по степенному закону используются для описания широкого круга явлений, таких как распределение размеров городов, количество цитирований научных статей и популярность веб-сайтов.

Функция плотности вероятности (PDF) распределения по степенному закону определяется следующим образом:

f(x) = (альфа-1) * x^(-альфа)

где x — случайная величина, а альфа — показатель степени распределения по степенному закону. Показатель степени альфа обычно больше 1 и определяет форму распределения.

Кумулятивная функция распределения (CDF) распределения по степенному закону определяется как:

F(x) = 1 — (x/x_min)^(-альфа+1)

где x_min — минимальное значение x в распределении. CDF полезен для расчета вероятности того, что случайная величина меньше или равна заданному значению.

Распределения по степенному закону важны во многих областях, включая экономику, физику и информатику, потому что они описывают поведение сложных систем, которые демонстрируют масштабную инвариантность, что означает, что их свойства не зависят от масштаба.

Преобразование Boxcox

Преобразование Бокса-Кокса — это математическое преобразование, которое обычно используется для преобразования ненормальных данных в приблизительно нормальные данные. Преобразование названо в честь статистиков Джорджа Бокса и Дэвида Кокса, которые разработали его в 1964 году.

Преобразование Бокса-Кокса включает в себя применение преобразования мощности к данным, где параметр мощности λ оценивается на основе данных. Преобразование можно записать как:

у (лямбда) = (х (лямбда) ^ (лямбда) - 1) / лямбда

где x — исходные данные, y — преобразованные данные. Параметр λ может принимать любое значение, включая отрицательные значения, хотя обычно избегают значений, близких к нулю.

Преобразование Бокса-Кокса часто используется в статистике для нормализации распределения данных, чтобы оно соответствовало предположениям определенных статистических моделей, таких как линейная регрессия. Его также можно использовать для стабилизации дисперсии данных.

Реализация преобразования Бокса-Кокса может варьироваться в зависимости от используемого программного обеспечения или языка программирования, но существует множество доступных пакетов и функций, которые могут применять преобразование автоматически.

Все техники трансформации

Методы преобразования в статистике относятся к процессу применения математической функции к переменной или набору переменных для изменения их распределения или формы. Это может быть полезно в различных статистических анализах, таких как проверка гипотез, визуализация данных и регрессионный анализ. Некоторые из наиболее распространенных методов преобразования, используемых в статистике:

1. Логарифмическое преобразование: логарифмирование переменной может быть полезным при работе с переменными, которые имеют искаженные или экспоненциально распределенные данные. Это может упростить выявление закономерностей и взаимосвязей в данных.

2. Преобразование квадратного корня. Подобно логарифмическому преобразованию, извлечение квадратного корня из переменной может быть полезным при работе с искаженными данными. Это преобразование также может упростить визуализацию данных.

3. Преобразование Бокса-Кокса. Это семейство степенных преобразований, которые можно применять к данным с различным распределением. Преобразование Бокса-Кокса — это метод поиска наиболее подходящего параметра преобразования для заданного набора данных.

4. Преобразование Z-оценки. Это преобразование включает вычитание среднего значения переменной из каждого наблюдения и последующее деление на стандартное отклонение. В результате получается новая переменная со средним значением, равным нулю, и стандартным отклонением, равным единице.

5. Миномаксная нормализация: это преобразование включает масштабирование данных в диапазоне от 0 до 1 путем вычитания минимального значения из каждого наблюдения и последующего деления на диапазон переменной.

6. Квантильная нормализация: это преобразование включает сопоставление распределения переменной со стандартным нормальным распределением путем ранжирования наблюдений и присвоения им новых значений на основе их ранга.

7. Преобразование Фурье. Это метод, используемый для преобразования данных временных рядов в данные частотной области. Преобразование Фурье может быть полезно для выявления периодических закономерностей в данных.

8. Анализ основных компонентов (PCA): PCA — это метод, используемый для преобразования данных высокой размерности в пространство меньшей размерности. Преобразование включает в себя поиск основных компонентов данных, которые фиксируют наиболее значительные различия в данных.

Это одни из наиболее часто используемых методов преобразования в статистике, но есть и много других, которые можно использовать в зависимости от характера данных и выполняемого анализа.

Доверительный интервал в статистике

Доверительный интервал — это диапазон значений, который может содержать истинное значение параметра генеральной совокупности, такого как среднее значение или пропорция, на основе выборки данных. Это распространенный статистический инструмент, используемый в логической статистике для оценки прецизионности или правильности статистической выборки и для выводов о генеральной совокупности.

Доверительный интервал рассчитывается с использованием точечной оценки параметра генеральной совокупности, такого как выборочное среднее или доля, и предела погрешности, отражающего изменчивость оценки. Уровень достоверности обычно устанавливается равным 90 %, 95 % или 99 % и представляет собой вероятность того, что истинный параметр совокупности попадает в доверительный интервал.

Например, 95-процентный доверительный интервал для среднего роста населения можно рассчитать следующим образом:

⦁ Возьмите случайную выборку из n человек из населения и измерьте их рост

⦁ Рассчитайте среднюю высоту образца, x̄ и стандартное отклонение образца

⦁ Используйте t-распределение (или z-распределение, в зависимости от размера выборки и допущений) для расчета погрешности, основанной на размере выборки, стандартном отклонении и уровне достоверности.

⦁ Постройте доверительный интервал как x̄ ± погрешность

Если бы мы повторили этот процесс много раз, мы бы ожидали, что 95% полученных доверительных интервалов будут содержать истинное среднее значение генеральной совокупности.

Важно отметить, что доверительный интервал предоставляет информацию о точности или правильности оценки, но не гарантирует, что истинный параметр генеральной совокупности попадает в этот интервал. На него также влияют размер выборки, уровень достоверности и предположения о распределении населения.

Ошибка типа 1 и типа 2

Ошибки типа 1 и типа 2 — это термины, используемые при проверке статистических гипотез для описания возможных ошибок, которые могут возникнуть при принятии решения на основе результатов статистической проверки.

Ошибка 1-го типа, также известная как ложное срабатывание, возникает, когда гипотеза отвергается, хотя на самом деле она верна. Другими словами, ошибка 1-го типа — это вероятность вывода о наличии статистически значимого эффекта или взаимосвязи, хотя на самом деле их нет. Вероятность совершения ошибки 1-го рода обозначается символом альфа (α) и обычно принимается равной 0,05 или 0,01.

Ошибка 2-го типа, также известная как ложноотрицательный результат, возникает, когда гипотеза не отвергается, хотя на самом деле она ложна. Другими словами, ошибка 2-го типа — это вероятность того, что не удастся сделать вывод о наличии статистически значимого эффекта или взаимосвязи, хотя на самом деле они есть. Вероятность совершения ошибки 2-го типа обозначается символом бета (β) и обычно принимается равной 0,2 или 0,1.

Вероятность совершения ошибки одного типа связана с вероятностью совершения ошибки другого типа. Как правило, с уменьшением вероятности совершения ошибки 1-го рода вероятность совершения ошибки 2-го рода возрастает, и наоборот. Следовательно, выбор уровня значимости (альфа) и размера выборки в статистическом тесте должен быть тщательно продуман, чтобы свести к минимуму вероятность обоих типов ошибок.

Односторонний и двусторонний тесты

Односторонние и двусторонние тесты — это типы тестов статистических гипотез, которые используются для определения того, достаточно ли доказательств, чтобы отклонить нулевую гипотезу в пользу альтернативной гипотезы.

Односторонний тест, также известный как тест направления, представляет собой статистический тест, который исследует только одно направление эффекта, либо положительное, либо отрицательное. Другими словами, он проверяет, существуют ли определенные отношения или эффекты в определенном направлении. Например, односторонний тест может быть использован для определения того, лучше ли новое лекарство, чем существующее, при этом предполагается, что новое лекарство лучше. Альтернативная гипотеза в этом случае будет заключаться в том, что новое лекарство лучше существующего, а нулевая гипотеза будет состоять в том, что между двумя лекарствами нет никакой разницы.

Двусторонний тест, также известный как ненаправленный тест, представляет собой статистический тест, который исследует оба направления эффекта, как положительное, так и отрицательное. Он проверяет, существует ли определенная связь или эффект, без указания конкретного направления. Например, двусторонний тест может быть использован для определения того, отличается ли новый препарат от уже существующего, без уточнения, лучше он или хуже. Альтернативная гипотеза в этом случае будет заключаться в том, что новое лекарство отличается от существующего, а нулевая гипотеза будет состоять в том, что между двумя лекарствами нет никакой разницы.

Выбор между односторонним и двусторонним тестом зависит от исследовательского вопроса и направленности гипотезы. Односторонние тесты подходят, когда у исследователя есть четкий направленный прогноз относительно результата, тогда как двусторонние тесты подходят, когда у исследователя нет направленного прогноза.

Проверка гипотезы

Проверка гипотез — это статистический метод, используемый для определения того, является ли гипотеза о популяции истинной или ложной на основе выборки данных. Он включает формулировку двух гипотез: нулевой гипотезы (H0) и альтернативной гипотезы (Ha).

Нулевая гипотеза — это принятое по умолчанию предположение об отсутствии существенной разницы или взаимосвязи между изучаемыми параметрами популяции. Альтернативная гипотеза, с другой стороны, представляет собой утверждение, которое противоречит нулевой гипотезе и предполагает, что существует значительная разница или взаимосвязь между изучаемыми параметрами.

Проверка гипотезы включает в себя сбор выборочных данных, расчет тестовой статистики и определение вероятности получения наблюдаемой тестовой статистики при условии, что нулевая гипотеза верна. Эта вероятность называется p-значением и представляет собой вероятность наблюдения тестовой статистики или более экстремального значения, если нулевая гипотеза верна.

Если p-значение ниже заданного уровня значимости (обычно 0,05), нулевая гипотеза отклоняется и принимается альтернативная гипотеза. Если p-значение выше уровня значимости, нулевая гипотеза не отвергается, и не делается никаких существенных различий или взаимосвязей.

Проверка гипотез обычно используется в научных исследованиях, контроле качества и принятии решений в различных областях, таких как бизнес, финансы и здравоохранение.

P-значение

Значение p — это статистическая мера, которая помогает определить значимость наблюдаемого эффекта при проверке гипотезы. При проверке гипотез p-значение — это вероятность получения тестовой статистики, столь же экстремальной, как и наблюдаемый результат, или даже более экстремальной, если предположить, что нулевая гипотеза верна.

Другими словами, p-значение говорит нам о вероятности наблюдения результатов, которые мы имеем, если нулевая гипотеза верна. Чем меньше p-значение, тем менее вероятно, что наблюдаемые результаты были получены случайно, и тем более вероятно, что между изучаемыми переменными существует значительная разница или взаимосвязь.

Значение p 0,05 (5%) часто используется в качестве порогового значения для определения статистической значимости. Если рассчитанное значение p меньше 0,05, оно считается статистически значимым, и мы отклоняем нулевую гипотезу в пользу альтернативной гипотезы. С другой стороны, если p-значение больше 0,05, мы не можем отвергнуть нулевую гипотезу и приходим к выводу, что для поддержки альтернативной гипотезы недостаточно доказательств.

Важно отметить, что p-значение не говорит нам о размере или практической значимости эффекта, а только о статистической значимости. Следовательно, его следует интерпретировать в сочетании с другими показателями размера эффекта и практической значимости.

Этапы проверки гипотез

1. Сформулируйте исследовательский вопрос и нулевую гипотезу. Первый шаг — четко определить исследовательский вопрос и нулевую гипотезу. Нулевая гипотеза обычно представляет позицию по умолчанию или предположение об отсутствии различий или взаимосвязей между изучаемыми переменными.

2. Сформулируйте альтернативную гипотезу. Альтернативная гипотеза представляет собой противоположность нулевой гипотезе и утверждает, что существует значительная разница или взаимосвязь между переменными.

3. Определите уровень значимости. Уровень значимости — это порог, при котором мы отклоняем нулевую гипотезу. Обычно используется уровень значимости 0,05 (или 5%).

4. Выберите подходящую тестовую статистику. Выбор тестовой статистики зависит от вопроса исследования, типа данных и распределения данных.

5. Соберите и проанализируйте данные. Соберите данные и рассчитайте тестовую статистику, которая измеряет разницу или взаимосвязь между переменными.

6. Вычислите p-значение: p-значение — это вероятность наблюдения тестовой статистики или более экстремального значения при условии, что нулевая гипотеза верна.

7. Интерпретируйте результаты: если p-значение меньше уровня значимости, нулевая гипотеза отклоняется и принимается альтернативная гипотеза. Если p-значение больше уровня значимости, нулевая гипотеза не отвергается.

8. Сделайте выводы и сообщите о результатах. На основе результатов сделайте выводы и сообщите о результатах, включая p-значение и размер эффекта, если это применимо. Важно интерпретировать результаты в контексте вопроса исследования и обсудить любые ограничения или допущения, сделанные в ходе анализа.

T-тест

Стьюдентный тест — это проверка статистической гипотезы, используемая для определения того, существует ли значительная разница между средними значениями двух групп. Он обычно используется в научных исследованиях и анализе данных для сравнения двух групп данных и определения того, обусловлены ли наблюдаемые различия случайностью или они являются статистически значимыми.

Существует два основных типа t-тестов: t-тест для независимых выборок и t-тест для парных выборок. Стьюдентный критерий независимых выборок используется, когда две сравниваемые группы независимы, что означает, что данные в одной группе не имеют отношения к данным в другой группе. Стьюдентный критерий парных выборок используется, когда две сравниваемые группы являются зависимыми, что означает, что данные в одной группе связаны с данными в другой группе.

Стьюдент-критерий вычисляет t-значение, которое является мерой разницы между средними значениями двух групп относительно вариации внутри каждой группы. Затем t-значение сравнивается с критическим значением на основе размера выборки и желаемого уровня значимости, обычно 0,05. Если t-значение превышает критическое значение, нулевая гипотеза (т. е. об отсутствии существенной разницы между средними значениями двух групп) отклоняется в пользу альтернативной гипотезы (т. е. о существенной разнице между средними значениями двух групп). из двух групп).

Z-тест

Z-критерий — это статистический тест, используемый для сравнения среднего значения выборки со средним значением генеральной совокупности, когда известно стандартное отклонение генеральной совокупности. Z-критерий основан на стандартном нормальном распределении, которое представляет собой распределение в форме колокола, имеющее среднее значение 0 и стандартное отклонение 1.

В z-тесте среднее значение выборки стандартизировано по стандартному нормальному распределению путем вычитания среднего значения совокупности и деления на стандартное отклонение совокупности. Полученное значение называется z-оценкой. Затем z-оценка сравнивается с критическим значением на основе желаемого уровня значимости, обычно 0,05.

Если z-показатель превышает критическое значение, нулевая гипотеза (т. е. отсутствие существенной разницы между средним значением выборки и средним значением генеральной совокупности) отклоняется в пользу альтернативной гипотезы (т. е. наличия значительной разницы между выборочное среднее и среднее значение генеральной совокупности).

Z-тесты часто используются, когда размер выборки велик и известно стандартное отклонение генеральной совокупности. Когда стандартное отклонение популяции неизвестно, вместо этого часто используется t-критерий.

Тест Annova

Тест ANOVA (дисперсионный анализ) представляет собой статистический метод, используемый для анализа наличия значительных различий между средними значениями двух или более групп. Он определяет, вызваны ли различия в данных различиями между группами или случайностью.

Тест ANOVA включает сравнение дисперсии между группами с дисперсией внутри групп. Если дисперсия между группами больше, чем дисперсия внутри групп, это говорит о том, что между сравниваемыми группами существуют значительные различия. Напротив, если дисперсия внутри групп больше, чем дисперсия между группами, это говорит об отсутствии существенных различий между сравниваемыми группами.

Тест ANOVA обычно используется в экспериментальных и обсервационных исследованиях для сравнения средних значений нескольких групп, например, для сравнения эффективности различных методов лечения определенного заболевания. Это можно выполнить с помощью таких программ, как SPSS, SAS и R.

Тест хи-квадрат

Тест хи-квадрат — это статистический метод, используемый для определения наличия значимой связи или взаимосвязи между двумя категориальными переменными. Обычно он используется для проверки гипотезы об отсутствии разницы между ожидаемой и наблюдаемой частотой двух или более категорий.

Тест хи-квадрат включает в себя вычисление разницы между ожидаемыми частотами каждой категории и наблюдаемыми частотами, а затем сравнение этих различий, чтобы определить, являются ли они статистически значимыми. Результатом теста является статистика хи-квадрат и значение p, которое указывает уровень значимости взаимосвязи между переменными.

Тест хи-квадрат можно использовать для анализа данных различных исследований, включая опросы, эксперименты и обсервационные исследования. Он широко используется в исследованиях в области социальных наук, эпидемиологии и генетики.

Существуют различные типы тестов хи-квадрат, в том числе тест хи-квадрат Пирсона, который используется для анализа двух или более номинальных переменных, и критерий хи-квадрат Мантеля-Хензеля, который используется для анализа взаимосвязи между двумя номинальными переменными. при контроле третьей переменной. Тест хи-квадрат можно выполнить с помощью таких программ, как SPSS, SAS и R.

Спасибо за прочтение!

Если вам понравилась эта статья, подпишитесь на меня, чтобы не пропустить еще одну статью о руководствах по науке о данных, хитростях и советах, жизненных уроках и многом другом!