Основные математические и теоретические навыки, необходимые для науки о данных и машинного обучения

Наука о данных - это очень практическая область. Наука о данных требует прочного основания в математике и программировании. Как специалисту по данным важно понимать теоретические и математические основы науки о данных, чтобы иметь возможность строить надежные модели с использованием реальных приложений.

В науке о данных и машинном обучении математические навыки так же важны, как и навыки программирования. Существует так много хороших пакетов, которые можно использовать для построения прогнозных моделей. Некоторые из наиболее распространенных пакетов для описательной и прогнозной аналитики включают

  • Ggplot2
  • Матплотлиб
  • Сиборн
  • Пакет учебных материалов Sci-kit
  • Пакет Caret
  • Tensorflow
  • Пакет PyTouch
  • Пакет Керас

Важно, чтобы перед использованием этих пакетов вы освоили основы науки о данных, чтобы вы не использовали эти пакеты просто как инструменты черного ящика.

Один из способов понять работу моделей машинного обучения - это понять теоретические и математические основы каждой модели. Как специалист по данным, ваша способность создавать надежные и эффективные модели, которые можно применять к реальным задачам, зависит от того, насколько хороши ваши математические навыки.

В этой статье будут рассмотрены некоторые теоретические и математические основы, необходимые для практики науки о данных.

(I) Статистика и вероятность

Статистика и вероятность используются для визуализации функций, предварительной обработки данных, преобразования функций, вменения данных, уменьшения размерности, проектирования функций, оценки модели и т. Д. Вот темы, с которыми вам необходимо ознакомиться:

  1. Иметь в виду
  2. Медиана
  3. Режим
  4. Стандартное отклонение / дисперсия
  5. Коэффициент корреляции и ковариационная матрица
  6. Распределения вероятностей (биномиальное, пуассоновское, нормальное)
  7. p-значение
  8. Теорема Байя (точность, отзыв, положительная прогностическая ценность, отрицательная прогностическая ценность, матрица неточностей, кривая ROC)
  9. Центральная предельная теорема
  10. Оценка R_2
  11. Среднеквадратичная ошибка (MSE)
  12. A / B тестирование
  13. Моделирование Монте-Карло

Например, Среднее, Медианное и Режим используются для отображения сводной статистики для данного набора данных. Они также используются для вменения данных (среднее вменение, среднее вменение и вменение режима).

Коэффициенты корреляции и ковариационная матрица используются для изучения взаимосвязей между различными функциями в наборе данных, а также могут использоваться для выбора функций и уменьшения размерности.

Распределения вероятностей используются для масштабирования функций, например, для нормализации и стандартизации функций. Распределения вероятностей и моделирование методом Монте-Карло также используются для моделирования данных. Например, если данные выборки распределены в соответствии с нормальным распределением с известным средним и стандартным отклонением, то набор данных о населении может быть сгенерирован с использованием генератора случайных чисел для нормального распределения.

Теорема Байя используется для тестирования и оценки моделей, а также для расчета показателя точности.

Центральная предельная теорема (CLT) - одна из самых важных теорем в статистике и науке о данных. Согласно CLT, использование выборочного набора данных с большим количеством наблюдений для построения модели является преимуществом, поскольку большая выборка является лучшим приближением к генеральной совокупности. Узнайте больше о CLT здесь: Доказательство центральной предельной теоремы с использованием моделирования Монте-Карло.

Оценка R_2 и MSE используются для оценки модели. Вот статья, в которой оценка R_2 и MSE используются для оценки модели:

Создание модели рекомендаций по машинному обучению с нуля.

(II) многомерное исчисление

Большинство моделей машинного обучения построены с использованием набора данных, имеющего несколько функций или предикторов. Следовательно, знакомство с многомерным исчислением чрезвычайно важно для построения модели машинного обучения. Вот темы, с которыми вам необходимо ознакомиться:

  1. Функции нескольких переменных
  2. Производные и градиенты
  3. Шаговая функция, сигмовидная функция, функция логита, функция ReLU (выпрямленная линейная единица)
  4. Функция стоимости
  5. Построение функций
  6. Минимальные и максимальные значения функции

Примеры использования многомерного исчисления в процессе машинного обучения см. В следующих примерах:

Создание вашей первой модели машинного обучения: оценщик линейной регрессии

Базовая модель персептрона с использованием метода наименьших квадратов

(III) Линейная алгебра

Линейная алгебра - самый важный математический навык в машинном обучении. Набор данных представлен в виде матрицы. Линейная алгебра используется при предварительной обработке данных, преобразовании данных, уменьшении размерности и оценке модели.

Вот темы, с которыми вам необходимо ознакомиться:

  1. Векторы
  2. Норма вектора
  3. Матрицы
  4. Транспонировать матрицу
  5. Обратная матрица
  6. Определитель матрицы
  7. Скалярное произведение
  8. Собственные значения
  9. Собственные векторы

Например, ковариационная матрица - очень полезная матрица, отображающая корреляции между функциями. Используя ковариационную матрицу, можно выбрать, какие функции использовать в качестве переменных-предикторов. Вот пример того, как ковариационная матрица может использоваться для выбора признаков и уменьшения размерности: Выбор характеристик и уменьшение размерности с помощью графика ковариационной матрицы.

Другими расширенными методами выбора функций и уменьшения размерности являются Анализ главных компонентов (PCA) и Линейный дискриминантный анализ (LDA). Чтобы понять, как работают PCA и LDA, вам необходимо разбираться в таких темах линейной алгебры, как транспонирование матрицы; инверсия матрицы; определитель матрицы; скалярное произведение; собственные значения; и собственные векторы. Вот некоторые реализации LDA и PCA:

Машинное обучение: снижение размерности с помощью анализа главных компонентов

Машинное обучение: уменьшение размерности с помощью линейного дискриминантного анализа

(IV) Методы оптимизации

Большинство алгоритмов машинного обучения выполняют прогнозное моделирование, минимизируя целевую функцию, тем самым изучая веса, которые должны быть применены к данным тестирования, чтобы получить предсказанные метки. Вот темы, с которыми вам необходимо ознакомиться:

  1. Функция затрат / целевая функция
  2. Функция правдоподобия
  3. Функция ошибки
  4. Алгоритм градиентного спуска и его варианты (например, алгоритм стохастического градиентного спуска)

Пример того, как методы оптимизации используются в науке о данных и машинном обучении, можно найти здесь: Машинное обучение: оценщик линейной регрессии Python с использованием градиентного спуска.

Таким образом, мы обсудили основные математические и теоретические навыки, которые необходимы в науке о данных и машинном обучении. Есть несколько бесплатных онлайн-курсов, которые научат вас математическим навыкам, которые вам нужны в науке о данных. Как специалисту по данным важно помнить, что теоретические основы науки о данных очень важны для построения эффективных и надежных моделей.

использованная литература

  1. Обучение модели машинного обучения на наборе данных с высококоррелированными функциями.
  2. Выбор признаков и уменьшение размерности с помощью графика ковариационной матрицы.
  3. Рашка, Себастьян и Вахид Мирджалили . Машинное обучение Python, 2-е изд.. Packt Publishing, 2017.
  4. Бенджамин О. Тайо, Модель машинного обучения для прогнозирования размера экипажа корабля, https://github.com/bot13956/ML_Model_for_Predicting_Ships_Crew_Size.