С технической точки зрения наука о данных представляет собой междисциплинарное сочетание разработки и применения алгоритмов статистического вывода и машинного обучения в сочетании с техническими инструментами (например, программным обеспечением, вычислительной мощностью и т. д.) для решения сложных задач анализа данных. Однако на английском все это означает, что наука о данных — это метод извлечения понимания, ценности и значения из данных, часто очень больших объемов данных.

Статистический вывод — это наука о данных в ее наиболее конкретной форме. Это инструмент, который особенно полезен на этапе исследования, когда мы пытаемся понять закономерности и отношения в наших данных. Статистический вывод позволяет нам проверять гипотезы о данной популяции на основе данных, отобранных из этой популяции.

Двумя основными парадигмами статистического вывода являются «частотный» подход и «байесовский» подход.

Частотный вывод позволяет нам делать выводы на основе проверки гипотез (т. е. значений p для статистической значимости) и доверительных интервалов (т. е. диапазона возможных значений, которые предлагают аппроксимацию ненаблюдаемой совокупности).

Байесовский вывод, напротив, опирается на убеждения о вероятностях. Байесовцы используют теорему Байеса (рис. 1) для корректировки вероятности данной гипотезы.

по мере поступления дополнительных данных. В сущности, если мы что-то знаем о данном событии, то это знание естественным образом сообщит о вероятности какого-то нового события.

Статистический вывод — это один из методов в науке о данных. Однако наука о данных становится действительно интересной, когда мы применяем алгоритмы машинного обучения к нашим данным, что позволяет нам прогнозировать и классифицировать.

В своей работе The Master Algorithm: How the Quest for Ultimate Learning Machine изменит наш мир, автор Педро Домингос утверждает, что в основе машинного обучения лежит предсказание: предсказание того, что мы хотим, и результаты наших действий, как достичь наших целей, как изменится мир.

Подобно статистическому выводу, машинное обучение охватывает не одну парадигму. На самом деле их пять и у каждого есть свои приверженцы.

«Символисты», как их называет Домингос, рассматривают данные посредством обратной дедукции. То есть вместо того, чтобы начинать с предпосылки и искать вывод, обратная дедукция начинается с набора предпосылок и выводов, а затем пытается заполнить пробелы. Символисты спрашивают: «Какого знания не хватает?» Затем они анализируют существующие данные, чтобы найти эти знания. Домингос предполагает, что символисты находят идеи и вдохновение в философии, психологии и логике.

«Коннекционисты», с другой стороны, пытаются реконструировать мозг с помощью вычислительных нейронных сетей (рис. 2), используя алгоритмы обратного распространения.

Они находят вдохновение в нейронауке и физике, а среди наиболее интересных работ коннекционистов находится область распознавания образов. То есть можем ли мы обучить алгоритм отличать изображение, скажем, табби от изображения мейн-куна?

«Эволюционеры» применяют алгоритмы генетического программирования, черпая вдохновение в генетике и эволюционной биологии. В соответствии с естественным отбором, присущим эволюции, эти алгоритмы генетического программирования работают над определением наиболее «подходящего» способа объяснения данных. Одним из наиболее распространенных применений эволюционных алгоритмов является лучшее обнаружение спама.

Байесовцы (помните их?), уходящие своими корнями в статистику, полагаются на алгоритмы байесовского вывода для расчета вероятностного вывода. Эти практики могут начать с гипотезы или нет. Они применяют априорные убеждения или знания об ожидаемых результатах. Фундаментальной для байесовской методологии является ее легкость в работе с неопределенностью, поэтому эти «априорные оценки», как их называют, не обязательно должны быть точными, т. е. неинформативными. По мере поступления новой информации или свидетельств априорная вероятность обновляется до апостериорной вероятности, которая затем может стать новой априорной вероятностью. И так до тех пор, пока не будет найден оптимальный прогноз.

Наконец, у нас есть те, кого Домингос называет «аналогизаторами». Аналогизаторы используют алгоритм ближайшего соседа, чтобы соединить или сопоставить один фрагмент данных с другим, чтобы обобщить сходство.

Этот алгоритм ближайшего соседа называется машиной опорных векторов (SVM). Если вы когда-либо транслировали что-то из Netflix, которое вам порекомендовал Netflix, вы извлекли выгоду из алгоритмов машины опорных векторов.

Выше перечислены основные школы мысли в области статистического вывода и машинного обучения, также известного как наука о данных. Но это не единственные школы мысли. И, как утверждает Домингос в своей книге, ни один тип алгоритма не является главным алгоритмом, алгоритм, который, как он утверждает, однажды произведет революцию во всем, что, как мы думали, мы знали. Однако заимствование идей и формул от каждого из них может однажды раскрыть такой алгоритм.

Таким образом, хотя наука о данных занимается извлечением смысла и ценности для получения практических результатов и очень часто используется на службе прибыльности, по сути, она на самом деле связана с нашей ненасытной жаждой понять то, чего мы еще не понимаем. И это, как мы утверждаем, является интеллектуальным небосводом, который будет способствовать прогрессу в 21 веке.

Эта статья была написана Лесли Латроп, штатным автором K2 Data Science, удаленного учебного курса по обработке и анализу данных, работающего неполный рабочий день. Для получения дополнительной информации отправьте запрос по электронной почте hello(at)k2datascience.com