Важные математические темы, которые необходимо изучить для науки о данных

Без них ваш потенциал будет сильно ограничен.

Введение

Математика.

Это всегда большой слон в комнате: никто не хочет об этом говорить, но в конце концов все должны решить эту проблему.

По моему опыту, спрашивать, нужно ли вам изучать математику для науки о данных, — излишний вопрос. Наоборот, это почти всегда вопрос сколько и какого типа математики вам нужно выучить.

Имея математическое образование, я могу сказать, что большая часть того, что я узнала во время получения степени по математике, никогда не использовалась явно в реальной жизненной ситуации.

В тот раз, когда нам нужно было доказать теорему Пифагора? Нет — мне это никогда не было нужно.

Но это не означает, что вы можете обойтись только абсолютными основами. Проблема в том, что математика, которую вам нужно выучить, сильно различается в зависимости от типа роли в науке о данных, которую вы хотите.

При этом я считаю, что для большинства начальных должностей в науке о данных необходим минимальный объем математических знаний; это создает хорошую прочную основу для изучения данных и изучения более сложных концепций.

Если вы хотите посмотреть что-то вместо этого, вы можете посмотреть мое видео ниже на ту же тему.

Функции, переменные и графики

Прежде чем перейти к более сложным темам, важно освоиться с основами.

Большинство из вас, читающих это, возможно, уже знают, что такое функции, переменные и графики. Но если вы этого не сделаете, то эти темы станут основой для таких задач, как исследовательский анализ данных и статистическое моделирование/моделирование машинного обучения.

Когда я изучал машинное обучение во время получения степени магистра наук о данных, студентам, которые не были знакомы с этими темами или забыли об этих темах, поначалу было труднее продвигаться вперед.

Некоторым студентам было трудно составлять простые уравнения и интерпретировать графики. Им не потребовалось много времени, чтобы понять это, но их важность нельзя недооценивать.

Статистика

Базовое понимание статистики, вероятно, является самым важным навыком в науке о данных.

Статистика предназначена для количественной оценки неопределенности. Это позволяет вам строго интерпретировать ваши результаты, помогая вам принимать более обоснованные решения.

Теория вероятности

Основополагающей статистической темой является теория вероятностей: речь идет о количественной оценке неопределенности и понимании случайности.

Курсы по статистике для начинающих обычно начинаются с этой темы, потому что она формирует основу для многих продвинутых статистических концепций; например, это помогает понять статистические распределения, проверку гипотез и выводную статистику.

Теория вероятностей — это то, с чего я бы посоветовал начать, если у вас еще нет базовых знаний в статистике.

Описательная статистика

Описательная статистика предназначена для анализа и понимания основных характеристик ваших данных.

Мы используем описательную статистику, чтобы понять:

Распределение данных.
Центральная тенденция данных, то есть среднее значение, медиана и мода.
Разброс данных, то есть стандартное отклонение и дисперсия.

Поняв основной состав ваших данных, вы сможете узнать, какие статистические методы применять. Это имеет большое значение для достоверности ваших результатов.

Проверка гипотезы

Как следует из названия, проверка гипотез заключается в проверке правдоподобия вашей гипотезы.

Это похоже на A/B-тестирование. Разница в том, что A/B-тестирование — это рандомизированное контрольное испытание: здесь мы сравниваем экспериментальную группу с контрольной группой, и обе группы пользователей рандомизируются. При проверке гипотез мы сравниваем результат группы из эксперимента с «нулевой» группой, чтобы увидеть, есть ли какая-либо статистически значимая разница.

Проверка гипотез оценивает значимость ваших экспериментальных результатов и позволяет вам задавать вопросы с научной точки зрения, основанные на данных.

Регрессия

Регрессия часто используется для прогнозирования и прогнозирования.

Он моделирует взаимосвязь между переменными, то есть зависимой переменной и одной или несколькими независимыми переменными. Чтобы модель считалась регрессионной, зависимая переменная должна быть непрерывной.

Многие компании используют регрессию тем или иным образом для предсказания или прогнозирования таких вещей, как продажи или сезонные события, которые происходят каждый год.

Если вы хорошо разбираетесь в регрессии, то это значительно поможет вам понять машинное обучение, поскольку существует большое совпадение.

Оценка модели

Оценка того, как работают ваши модели, чрезвычайно важна в науке о данных.

Нет смысла обучать несколько моделей, не зная, какую из них использовать. Возможность оценить свои статистические модели или модели машинного обучения даст вам правильный способ выбора лучших моделей для использования в ваших проектах по науке о данных.

Линейная алгебра

Вся основа алгоритмов машинного обучения, таких как глубокое обучение, основана на линейной алгебре. Следовательно, это важная тема, которую нужно знать, если вы хотите серьезно относиться к машинному обучению.

Векторы и матрицы

Векторы и матрицы являются основой линейной алгебры. Кроме того, с большими наборами данных намного проще работать, мы представляем их в виде векторов и матриц; это жизненно важно в машинном обучении.

В машинном обучении мы используем их в функциях стоимости, нейронных сетях, машинах опорных векторов и многом другом.

Если вы хотите написать более быстрые конвейеры обработки данных, популярные библиотеки Python, такие как NumPy, также предназначены для чрезвычайно эффективной обработки векторов и матриц.

Собственные векторы и собственные значения

После того, как вы освоитесь с векторами и матрицами, имеет смысл прочитать о собственных векторах и собственных значениях.

Когда мы разбиваем матрицы на их простейшее представление, мы получаем собственные векторы и собственные значения. Они дают ценную информацию о свойствах матрицы. И, как мы уже говорили, с большими наборами данных гораздо проще работать в виде матриц и векторов.

Нам также нужны собственные векторы и собственные значения, чтобы понять анализ основных компонентов (PCA), который представляет собой метод, который уменьшает размерность данных при минимальных потерях информации. Это важный метод поиска признаков в большом наборе данных.

Исчисление

Исчисление используется не так часто, как статистика, но оно нам нужно для решения задач оптимизации. По крайней мере, вам должно быть удобно с тем, как работают основные производные и интегралы, поскольку они составляют основу исчисления.

В машинном обучении мы часто говорим о функциях потерь, которых существует много разных типов. Эти функции используют метод, основанный на производных, называемый градиентным спуском, для поиска наилучшего набора параметров. Таким образом, не понимая, как работают производные, вы не узнаете, как рассчитывались эти параметры.

Кроме того, нейронные сети используют интегралы во время обратного распространения, метод точной настройки своих весов после выдачи прогноза. Большинство людей, занимающихся обучением нейронных сетей, даже не знают, почему это работает, но, поняв интегралы, вам будет намного легче понять их в будущем.

Дискретная математика

Современная компьютерная наука почти полностью построена на дискретной математике.

Вот несколько примеров, иллюстрирующих это: компьютеры хранят данные в виде нулей и единиц и используют булеву алгебру для выполнения вычислений с данными; языки программирования низкого уровня полагаются на логические операторы; и такие вещи, как блокчейн, криптография и компьютерная безопасность, также используют теорию чисел.

Алгоритмическая сложность

Знание того, насколько сложны алгоритмы, поможет вам лучше понять, сколько времени потребуется на их выполнение и насколько сложно будет использовать их для решения проблемы.

Поскольку у меня нет опыта работы с информатикой, я узнал об этом позже. Возможно, вы слышали об этом как о «нотации с большой буквой О».

Теория множеств

Во время получения степени по математике я всегда думал, что теория множеств кажется немного бессмысленной, пока я не начал изучать реляционные базы данных.

Набор в основном представляет собой набор элементов. Эти элементы могут быть любыми математическими объектами. В контексте баз данных вы можете думать о наборе как о таблице, элементами которой являются строки в таблице.

Вам не нужна теория множеств, чтобы работать с базами данных, но это определенно полезно знать. Теория множеств помогает понять, как работают соединения SQL, и поможет вам лучше оптимизировать модели баз данных.

Теория графов

Теория графов является основой баз данных графов. Этот тип базы данных предназначен для моделирования данных, состоящих из узлов и отношений.

Хорошим примером этого может быть социальная сеть. Каждый человек будет узлом, и всякий раз, когда кто-то «следует» за другим человеком, это будут отношения.

Многие данные социальных сетей хранятся в базах данных графов. Для проведения любого анализа социальных сетей могут потребоваться некоторые знания о графиках и о том, как применять алгоритмы в этих условиях.

Заключение

В конце концов, математика неизбежна в науке о данных. Без хорошей подготовки по математике ваш потенциал специалиста по данным будет сильно ограничен.

Надеюсь, это дало вам некоторые идеи о том, с чего начать и сколько вам на самом деле нужно узнать. Конечно, это также зависит от того, каким специалистом по данным вы являетесь или хотите стать.

Для экспертов по данным, пожалуйста, дайте мне знать, если я что-то пропустил. Как всегда, если вам понравилась эта статья, вы можете посмотреть другие мои видео на YouTube. И если вы хотите узнать, чем я занимаюсь по электронной почте, вы можете подписаться на мою новостную рассылку!

Первоначально опубликовано на https://leonlok.co.uk 15 февраля 2022 г.