Основные математические и теоретические навыки, необходимые для науки о данных и машинного обучения
Наука о данных - это очень практическая область. Наука о данных требует прочного основания в математике и программировании. Как специалисту по данным важно понимать теоретические и математические основы науки о данных, чтобы иметь возможность строить надежные модели с использованием реальных приложений.
В науке о данных и машинном обучении математические навыки так же важны, как и навыки программирования. Существует так много хороших пакетов, которые можно использовать для построения прогнозных моделей. Некоторые из наиболее распространенных пакетов для описательной и прогнозной аналитики включают
- Ggplot2
- Матплотлиб
- Сиборн
- Пакет учебных материалов Sci-kit
- Пакет Caret
- Tensorflow
- Пакет PyTouch
- Пакет Керас
Важно, чтобы перед использованием этих пакетов вы освоили основы науки о данных, чтобы вы не использовали эти пакеты просто как инструменты черного ящика.
Один из способов понять работу моделей машинного обучения - это понять теоретические и математические основы каждой модели. Как специалист по данным, ваша способность создавать надежные и эффективные модели, которые можно применять к реальным задачам, зависит от того, насколько хороши ваши математические навыки.
В этой статье будут рассмотрены некоторые теоретические и математические основы, необходимые для практики науки о данных.
(I) Статистика и вероятность
Статистика и вероятность используются для визуализации функций, предварительной обработки данных, преобразования функций, вменения данных, уменьшения размерности, проектирования функций, оценки модели и т. Д. Вот темы, с которыми вам необходимо ознакомиться:
- Иметь в виду
- Медиана
- Режим
- Стандартное отклонение / дисперсия
- Коэффициент корреляции и ковариационная матрица
- Распределения вероятностей (биномиальное, пуассоновское, нормальное)
- p-значение
- Теорема Байя (точность, отзыв, положительная прогностическая ценность, отрицательная прогностическая ценность, матрица неточностей, кривая ROC)
- Центральная предельная теорема
- Оценка R_2
- Среднеквадратичная ошибка (MSE)
- A / B тестирование
- Моделирование Монте-Карло
Например, Среднее, Медианное и Режим используются для отображения сводной статистики для данного набора данных. Они также используются для вменения данных (среднее вменение, среднее вменение и вменение режима).
Коэффициенты корреляции и ковариационная матрица используются для изучения взаимосвязей между различными функциями в наборе данных, а также могут использоваться для выбора функций и уменьшения размерности.
Распределения вероятностей используются для масштабирования функций, например, для нормализации и стандартизации функций. Распределения вероятностей и моделирование методом Монте-Карло также используются для моделирования данных. Например, если данные выборки распределены в соответствии с нормальным распределением с известным средним и стандартным отклонением, то набор данных о населении может быть сгенерирован с использованием генератора случайных чисел для нормального распределения.
Теорема Байя используется для тестирования и оценки моделей, а также для расчета показателя точности.
Центральная предельная теорема (CLT) - одна из самых важных теорем в статистике и науке о данных. Согласно CLT, использование выборочного набора данных с большим количеством наблюдений для построения модели является преимуществом, поскольку большая выборка является лучшим приближением к генеральной совокупности. Узнайте больше о CLT здесь: Доказательство центральной предельной теоремы с использованием моделирования Монте-Карло.
Оценка R_2 и MSE используются для оценки модели. Вот статья, в которой оценка R_2 и MSE используются для оценки модели:
Создание модели рекомендаций по машинному обучению с нуля.
(II) многомерное исчисление
Большинство моделей машинного обучения построены с использованием набора данных, имеющего несколько функций или предикторов. Следовательно, знакомство с многомерным исчислением чрезвычайно важно для построения модели машинного обучения. Вот темы, с которыми вам необходимо ознакомиться:
- Функции нескольких переменных
- Производные и градиенты
- Шаговая функция, сигмовидная функция, функция логита, функция ReLU (выпрямленная линейная единица)
- Функция стоимости
- Построение функций
- Минимальные и максимальные значения функции
Примеры использования многомерного исчисления в процессе машинного обучения см. В следующих примерах:
Создание вашей первой модели машинного обучения: оценщик линейной регрессии
Базовая модель персептрона с использованием метода наименьших квадратов
(III) Линейная алгебра
Линейная алгебра - самый важный математический навык в машинном обучении. Набор данных представлен в виде матрицы. Линейная алгебра используется при предварительной обработке данных, преобразовании данных, уменьшении размерности и оценке модели.
Вот темы, с которыми вам необходимо ознакомиться:
- Векторы
- Норма вектора
- Матрицы
- Транспонировать матрицу
- Обратная матрица
- Определитель матрицы
- Скалярное произведение
- Собственные значения
- Собственные векторы
Например, ковариационная матрица - очень полезная матрица, отображающая корреляции между функциями. Используя ковариационную матрицу, можно выбрать, какие функции использовать в качестве переменных-предикторов. Вот пример того, как ковариационная матрица может использоваться для выбора признаков и уменьшения размерности: Выбор характеристик и уменьшение размерности с помощью графика ковариационной матрицы.
Другими расширенными методами выбора функций и уменьшения размерности являются Анализ главных компонентов (PCA) и Линейный дискриминантный анализ (LDA). Чтобы понять, как работают PCA и LDA, вам необходимо разбираться в таких темах линейной алгебры, как транспонирование матрицы; инверсия матрицы; определитель матрицы; скалярное произведение; собственные значения; и собственные векторы. Вот некоторые реализации LDA и PCA:
Машинное обучение: снижение размерности с помощью анализа главных компонентов
Машинное обучение: уменьшение размерности с помощью линейного дискриминантного анализа
(IV) Методы оптимизации
Большинство алгоритмов машинного обучения выполняют прогнозное моделирование, минимизируя целевую функцию, тем самым изучая веса, которые должны быть применены к данным тестирования, чтобы получить предсказанные метки. Вот темы, с которыми вам необходимо ознакомиться:
- Функция затрат / целевая функция
- Функция правдоподобия
- Функция ошибки
- Алгоритм градиентного спуска и его варианты (например, алгоритм стохастического градиентного спуска)
Пример того, как методы оптимизации используются в науке о данных и машинном обучении, можно найти здесь: Машинное обучение: оценщик линейной регрессии Python с использованием градиентного спуска.
Таким образом, мы обсудили основные математические и теоретические навыки, которые необходимы в науке о данных и машинном обучении. Есть несколько бесплатных онлайн-курсов, которые научат вас математическим навыкам, которые вам нужны в науке о данных. Как специалисту по данным важно помнить, что теоретические основы науки о данных очень важны для построения эффективных и надежных моделей.
использованная литература
- Обучение модели машинного обучения на наборе данных с высококоррелированными функциями.
- Выбор признаков и уменьшение размерности с помощью графика ковариационной матрицы.
- Рашка, Себастьян и Вахид Мирджалили . Машинное обучение Python, 2-е изд.. Packt Publishing, 2017.
- Бенджамин О. Тайо, Модель машинного обучения для прогнозирования размера экипажа корабля, https://github.com/bot13956/ML_Model_for_Predicting_Ships_Crew_Size.