Связь с причинно-следственной связью вымощена человеческой интуицией

Корреляция против причинно-следственной связи

Любой, кто работал с данными, сталкивался с вопросом, обусловлены ли результаты причинно-следственной связью или просто корреляцией. В основном это основано на известном утверждении, что «корреляция не подразумевает причинно-следственной связи».

Согласно Википедии:

В статистике фраза корреляция не подразумевает причинно-следственную связь относится к невозможности законным образом вывести причинно-следственную связь между двумя переменными исключительно на основе наблюдаемой связи. или корреляция между ними

Мы попытаемся объяснить это на примерах, но сначала давайте дадим несколько основных определений:

Корреляция:

отношение, существующее между явлениями или вещами, или между математическими или статистическими переменными, которые имеют тенденцию изменяться, быть связанными или происходить вместе таким образом, который не ожидается на основе одной лишь случайности

Причина:

действие или действие, которое производит эффект

Итак, давайте упростим это. Корреляция — это явление взаимосвязи, при котором две переменные ведут себя аналогично друг другу. Причина в том, что одна из этих переменных работает одинаково из-за другой.

Доказательство на примере

Давайте посмотрим на переменные роста и веса. Мы можем обнаружить, что рост и вес человека имеют прямую связь с размером талии и длиной штанов (корреляция). Можно даже сделать вывод, что выбор размера брюк человека является результатом его роста и веса (причинно-следственная связь).

Однако, допустим, у нас есть набор данных, учитывающий рост и вес человека, и мы смотрим на общее количество миль, пройденных отдельными водителями за год. Мы можем найти корреляцию между ростом/весом и количеством пройденных миль, но мы не можем логически утверждать, что более крупные люди водят больше просто потому, что они крупнее. Проще говоря, корреляция не подразумевает причинно-следственной связи.

Для меня лучший способ понять это — визуализировать. К счастью, некоторые уже потрудились показать разницу на комичных примерах. Ниже приведен ряд диаграмм, показывающих маловероятность того, что корреляция приводит к причинно-следственной связи:

Так как же перейти от корреляции к причинно-следственной связи? Итак, что общего между приведенными выше графиками и выводом о том, что корреляция не подразумевает причинно-следственную связь? Ответ — человеческая интуиция. Компьютер смотрит на три графика выше и находит интересные закономерности. Человек смотрит на это и находит чистое совпадение.

Машинное обучение

По мере того, как машинное обучение становится все более и более популярным, многие люди задаются вопросом, является ли это решением для поиска причинно-следственных связей в данных. В конце концов, машинное обучение по определению заставляет машину «учиться» так же, как человек.

Машинное обучение имеет возможность приблизиться к причинно-следственной связи, поскольку оно может рассматривать многомерные закономерности и углубляться в взаимосвязь между данными. Однако идеи машинного обучения по-прежнему не полностью подразумевают причинно-следственную связь. Ответ находится в балансе между людьми и технологиями с помощью того, что мы называем доступным ИИ. Доступный ИИ предполагает, что машинное обучение и прогнозная аналитика станут более полезными, объяснимыми и доступными.

Цель и путь от корреляции к причинно-следственной связи состоит в том, чтобы объединить расширенные возможности машинного обучения для поиска закономерностей, которые считаются релевантными, с интуицией человека, чтобы лучше понять релевантность.

Чтобы полностью выполнить это, нам нужно, чтобы пользователи данных, те, кто знает их лучше всего, имели доступ к расширенным возможностям машинного обучения. Слишком часто мы видим, как сложности ИИ вынуждают пользователей данных передавать данные специалисту по данным. Это приводит к разрыву связи, поскольку люди, непосредственно взаимодействующие с данными (специалисты по данным), часто уже не являются теми, кто обладает знаниями в данной области и обладает интуицией, позволяющей найти причинно-следственную связь в результатах.

Вместо того чтобы сосредотачиваться на обучении специалиста по обработке и анализу данных, чтобы он лучше разбирался в предметной области, мы считаем, что наиболее эффективным путем от корреляции к причинно-следственной связи является упрощение технологии, чтобы передать ее в руки экспертов в предметной области. Только тогда продвинутые паттерны могут быть должным образом объединены с человеческой интуицией, чтобы выявить истинную причинно-следственную связь.

Вывод

С помощью Elipsa Analytics Platform мы автоматизируем науку о данных. Позволить данным оставаться в руках экспертов в предметной области, чтобы они могли напрямую применять свои знания и интуицию. Это сочетание передовых технологий и знаний в предметной области является верным путем от корреляции к причинно-следственной связи.