Статистика является одним из основных разделов математики, который имеет больше реальных приложений, чем любой другой раздел. Сознательно или неосознанно мы все используем статистику в нашей повседневной жизни. Статистика является одним из основных столпов науки о данных и машинного обучения, поскольку и тем, и другим нужны данные для принятия более эффективных решений.

Статистика заключается в том, чтобы задавать соответствующие вопросы, собирать соответствующие данные, анализировать их и получать полезные ответы. Сегодня я постараюсь объяснить статистику максимально простым языком. Я не могу сделать вас специалистом по статистике, но я могу вывести вас на путь экспертов. Итак, приступим!!

Статистика в основном делится на 2 основные подотрасли:

ОПИСАТЕЛЬНАЯ СТАТИСТИКА

Описательная статистика предназначена для сбора и обобщения уже имеющейся информации. Это означает, что мы понимаем данные, извлекаем полезную информацию и суммируем данные.

Чтобы обобщить данные и собрать полезную информацию, мы строим различные типы графиков, такие как гистограммы, гистограммы, диаграммы рассеяния и т. д.

ВЫВЕДЕННЫЙ СТАТИСТИКА

В логической статистике мы пытаемся сделать вывод или предсказать результаты для населения на основе описательных данных. Кроме того, мы измеряем, насколько точен наш прогноз, используя проверку гипотез.

В этой части мы рассмотрим описательную статистику.

Прежде чем мы начнем описательную статистику, сначала мы узнаем о населении и выборке.

НАСЕЛЕНИЕ: это набор всех возможных результатов, т. е. всех объектов, вещей, дел и т. д., которые представляют интерес. Например, все студенты университета, все сотрудники Google и т. д.

ОБРАЗЕЦ: это подмножество совокупности. В Sample мы собираем небольшой объем данных от населения и пытаемся сделать вывод о его результате. Данные, отобранные из совокупности, выбираются случайным образом. Например, из всех студентов университета мы случайным образом выбрали 100 студентов и спросили об их среднем балле.

параметр – это характеристика совокупности. Статистика – это характеристика выборки. Логическая статистика позволяет сделать обоснованное предположение о параметре совокупности на основе статистических данных, вычисленных на основе выборки, случайно взятой из этой совокупности.

ТИПЫ ДАННЫХ

Прежде чем мы узнаем, что такое типы данных, мы сначала поняли, почему мы хотим понимать разные типы данных. Чтобы выполнить статистику данных, мы сначала узнаем тип данных, поскольку разные операции выполняются с разными типами данных. Распознавание данных — это первый шаг объяснительного анализа данных (EDA). Кроме того, различные типы графиков используются в соответствии с различными типами данных.

Типы данных в основном делятся на 2 части:

1. КАТЕГОРИЧЕСКИЕ ДАННЫЕ

Категориальные данные представляют характеристики, т. е. представляют такую ​​информацию, как цвет волос, имена, пол человека, типы фильмов и т. д. Категориальные данные также могут принимать числовые значения, такие как «1» для мужчин и «0» для женщин, но это значение не имеет математического значения. значение.

Категориальные данные подразделяются на 2 другие части:

я. НОМИНАЛЬНЫЙ

Номинальные данные, как следует из названия, - это просто имена, которые не имеют никакого порядка или ранжирования. Они подобны меткам для данных, которые не имеют никакого математического значения. Вы не можете сказать, что мужской › женский иликоричневый = черный, это просто имена.

Чтобы выполнить анализ номинальных данных, мы можем подсчитать, сколько раз каждое имя встречается в заданных данных, а затем выполнить математические операции.

Например, в наборе данных из 100 человек у нас может быть 60 мужчин и 40 женщин, поэтому из подсчета мы можем сделать вывод, что мужчин больше, чем женщин.

II. ОРДИНАЛ

Порядковые данные, как следует из названия, — это данные, которые можно упорядочить или ранжировать. Это то же самое, что и номинальные данные, но они дискретны и могут быть заказаны.

Например, если мы попросим человека оценить фильм по пятибалльной шкале. 1 будет лучшим, а 5 будет худшим. Итак, по рейтингу вы можете сказать, что лучшее выше хорошего, а хорошее лучше худшего. Но мы не можем отличить лучшее от худшего.

Теперь второй тип данных

2. ЧИСЛЕННЫЕ ДАННЫЕ

Числовые данные, как следует из названия, содержат числа в данных. Числовые данные можно разделить на 2 типа:

я. ДИСКРЕТНЫЕ ДАННЫЕ

Дискретные данные содержат дискретные числа, что означает, что они содержат только целые числа, то есть только целые числа. Эти типы данных не могут быть измерены, но могут быть подсчитаны.

Например, если кто-то спросит вас, какова цена iPhone? Каков будет ваш ответ? Вы скажете 1000 или 800 долларов в зависимости от модели, но вы не можете сказать им, что она стоит 1000 долларов.10002012

II. НЕПРЕРЫВНЫЕ ДАННЫЕ

Непрерывные данные содержат все действительные числа, т.е. все целые числа, включая числа с плавающей запятой. Мы не можем сосчитать его значение, но его можно измерить. Например, рост человека или вес человека.

Непрерывные данные можно разделить на 2 части:

а) ИНТЕРВАЛЬНАЯ ШКАЛА

Interval-Scale — это числа, которые имеют одинаковую разницу между значениями и упорядочены. Например Температура. Разница между 10 и 20 градусами соответствует той же разнице температур, что и разница между 80 и 90 градусами. Это потому, что каждый 10-градусный интервал имеет один и тот же физический смысл. Шкалы интервалов не только сообщают порядок, но и значение между каждым элементом.

У интервальной шкалы есть одна серьезная проблема: у нее нет «истинной нулевой точки». Это означает, что мы не можем сказать, что ноль градусов по Цельсию означает отсутствие температуры или отсутствие температуры.

Смущенный? Хорошо, подумайте об этом: 10 градусов по Цельсию + 10 градусов по Цельсию = 20 градусов по Цельсию. Никаких проблем. Однако 20 градусов по Цельсию не в два раза горячее, чем 10 градусов по Цельсию, потому что не существует такого понятия, как «отсутствие температуры», когда речь идет о шкале Цельсия. При переводе в градусы Фаренгейта становится ясно: 10°С=50°F и 20°C=68°F, что не в два раза горячее.

Я знаю, что это все еще сбивает с толку, но просто помните, что в интервальной шкале ноль не равен реальному нулю. Таким образом, без истинного нуля невозможно вычислить отношения. С интервальными данными мы можем складывать и вычитать, но не можем умножать или делить. Итак, чтобы преодолеть это, мы перейдем к нашему второму типу непрерывных данных.

б) ШКАЛА ОТНОШЕНИЙ

Это самая полезная и информативная шкала. Он обладает всеми свойствами интервальной шкалы, а также устраняет проблему «истинной нулевой точки». Вы можете думать о шкале отношений как о трех предыдущих шкалах, объединенных в одну. Подобно номинальной шкале, она предоставляет имя или категорию для каждого объекта (числа служат метками). Как и в порядковой шкале, объекты упорядочены (с точки зрения порядка чисел). Как и в шкале интервалов, одна и та же разница в двух точках шкалы имеет одинаковое значение. А также одно и то же соотношение в двух местах на шкале имеет тот же смысл.

Шкалы отношений предоставляют множество возможностей, когда дело доходит до статистического анализа. Эти переменные можно осмысленно складывать, вычитать, умножать, делить (соотношения). Центральную тенденцию можно измерить модой, медианой или средним значением; меры дисперсии, такие как стандартное отклонение и коэффициент вариации, также могут быть рассчитаны по шкалам отношений. Примерами Ratio-Scale являются рост, вес и т. д.

Теперь вы знаете о типах данных, поэтому давайте перейдем к нашей следующей теме.

МЕРА ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ

Мера центральной тенденции — одно из самых важных и основных понятий статистики. Это похоже на метод суммирования, который предоставляет информацию обо всех данных в одном значении, то есть в центральной точке. Существует 3 наиболее распространенных показателя центральной тенденции:

1. СРЕДНИЙ

Среднее значение является наиболее часто используемой мерой центральной тенденции. Это очень просто и легко. Это сумма всех чисел, деленная на общее количество точек данных. Если вы измените одно значение из данных, среднее значение данных будет изменено. Из-за этого у него есть проблема под названием Выбросы.

Выброс — это значение, которое является нежелательным, поддельным или создает шум в данных. Например, у нас есть данные о весе детей в возрасте 5–10 лет. Таким образом, обычно это будет от 15 до 30 кг, поэтому среднее значение будет около 22,5 кг, но что, если некоторые из значений будут такими, как 80 кг, 70 кг и т. Д. У 5–10-летнего ребенка не так много веса, поэтому что тогда? Это не что иное, как выбросы, которые могут быть подделкой или шумом. И если мы рассмотрим выбросы, среднее значение может возрасти до 50 кг, что не имеет смысла. Мы узнаем больше о выбросах в следующих частях.

2. МЕДИАНА

Вторая мера центральной тенденции очень проста и эффективна. Он преодолевает проблему выбросов. В медиане сначала мы сортируем все данные и выбираем среднее значение в качестве медианы. Если количество точек данных четное, мы берем два средних значения и усредняем их.

Теперь давайте посмотрим на основное различие между средним и медианным на примере.

В компании мы берем данные 10 человек об их ежемесячной зарплате, и это выглядит следующим образом:

Теперь, если вы подсчитаете среднее значение, оно будет 27500/10 = 2750. Таким образом, средняя зарплата составит 2750 долларов, и, согласно данным, это нормально. Кроме того, мы рассчитаем медиану данных.

Таким образом, если мы усредним средние два значения, медиана составит 2500 долларов, и это довольно хорошее число для представления этих данных.

Но теперь, допустим, приходит Илон Маск, и мы также учитываем его зарплату в данных.

Теперь, если мы посчитаем среднее значение, оно будет 127500/11 = 11590,9091. Таким образом, средняя зарплата будет примерно 12000 долларов США. Как вы можете видеть, из-за одного большого числа среднее значение сильно варьируется от 2750 до 120000. И также, если мы посмотрим на данные, нет ни одного сотрудника, чья зарплата превышает 5000 долларов США, но мы получаем в среднем 12000$. Кроме того, давайте вычислим медиану этих данных.

Поскольку количество данных нечетное, мы получаем 2500 долларов в качестве медианы. Хотя включено большое значение, медианное значение не влияет на него. Мы получаем одно и то же значение из обоих приведенных выше наборов данных.

Таким образом, выброс является самым большим недостатком и различием между средним и медианным значением.

Давайте перейдем к нашей третьей мере центральной тенденции.

3. РЕЖИМ

Режим очень простой и в основном используется для категорийных данных. Мода — это значение, которое чаще всего встречается в данных. Если данные имеют несколько значений, привязанных к наиболее часто встречающимся, у вас есть несколько значений для режима. Если ни одно значение не повторяется, данные не имеют режима.

Выше приведен пример режима с числовыми данными. Значение 2500 долларов встречалось чаще всего, поэтому режим равен 2500 долларов.

Теперь давайте посмотрим на пример для категорийных данных.

Проблема с режимом заключается в том, что мы можем получить несколько значений для режима и не можем решить, какое значение лучше всего описывает данные, и эти проблемы обычно возникают с числовыми данными. Поэтому мы не используем моду для числовых данных.

Я знаю, что это длинный пост, поэтому я должен закончить его здесь. Поздравляем и благодарим за продвижение вперед. В следующем посте мы подробно узнаем о показателях изменчивости/разброса и выбросов.

ЕСЛИ У ВАС ЕСТЬ КАКИЕ-ЛИБО СОМНЕНИЯ ИЛИ ЕСЛИ Я СДЕЛАЛ КАКИЕ-ЛИБО ОШИБКИ, НЕ СМОТРИТЕ СВОБОДНО СПРОСИТЬ МЕНЯ ИЛИ ПОПРАВИТЬ МЕНЯ. И ЕСЛИ ВЫ ЧТО-ТО УЗНАЛИ ИЛИ ПОНРАВИЛОСЬ МОЙ ПОСТ, ТОГДА ДАЙТЕ МНЕ ХЛОП.

А ТЕПЕРЬ ОСТАВАЙСЯ В БЕЗОПАСНОСТИ, ЗДОРОВЬЕ И С НОВЫМ ГОДОМ

ДВЕ МОИ ЛЮБИМЫЕ СОЦИАЛЬНЫЕ СЕТИ:

ЛИНКЕДИН ГИТХАБ