Наивный алгоритм Байеса - это алгоритм классификации, основанный на знаменитой теореме Байеса. Итак, давайте сначала разберемся, о чем говорит теорема Байеса, и составим интуитивное представление о наивной теореме Байеса, как она работает и что в ней такого наивного?

Теорема Байеса

Прежде чем погрузиться в теорему Байеса, нам нужно понять несколько терминов:

  1. Независимые и зависимые события
  2. Предельная вероятность
  3. Совместная вероятность
  4. Условная возможность

Независимые и зависимые события

Рассмотрим два события: A и B. Если вероятность наступления события A не зависит от наступления события B, тогда A и B являются независимыми событиями. Например, если у вас есть 2 честные монеты, то вероятность выпадения орла на обеих монетах будет равна 0,5 для обеих. Следовательно, события независимы.

Теперь рассмотрим коробку с 5 шарами - 2 черными и 3 красными. Вероятность того, что первым вытащит черный шар, будет 2/5. Теперь вероятность снова вытянуть черный шар из оставшихся 4 шаров будет 1/4. В этом случае два события зависимы, так как вероятность вытащить черный шар во второй раз зависит от того, какой шар был вытащен в первый раз.

Предельная вероятность

Предельная вероятность - это не что иное, как вероятность события независимо от результатов других случайных величин, например P (A) или P (B).

Совместная вероятность

Совместная вероятность - это вероятность двух разных событий, происходящих одновременно, то есть двух (или более) одновременных событий, например P (A и B) или P (A, B).

Условная возможность

Условная вероятность - это вероятность одного (или нескольких) событий с учетом наступления другого события или, другими словами, это вероятность того, что событие A произойдет, когда вторичное событие B имеет значение истина например P (A для B) или P (A | B).

Интуиция

Итак, рассмотрим предыдущий пример коробки с 3 красными и 2 черными шарами. Предельная вероятность подобрать красный шар с первого раза будет 2/5. Пусть это будет P (A). Теперь из оставшихся 3 красных и 1 черного шара вероятность вытянуть еще один черный шар будет 1/4, что составляет P (B | A). Теперь это условная вероятность вытянуть черный шар, учитывая, что черный шар уже был вытянут во время первого хода, что было событием A.

Теперь, если мы умножим обе эти вероятности, мы получим 1/10, которая является совместной вероятностью P (A, B).

Подставляя значения в приведенное выше уравнение для P (A, B) и P (B), мы получим P (B | A) = 1/4. Таким образом, 1/4 - это условная вероятность события B, когда A уже произошло (зависимые события).

Точно так же мы можем определить P (A | B) как:

Теперь мы очень хорошо знаем, что P (A, B) = P (B, A). Следовательно, приравняв оба уравнения, получим:

Здесь P (B) - априорная вероятность, P (A | B) - вероятность, P (A) - предельная вероятность а P (B | A) - апостериорная вероятность.

Наивная теорема Байеса

Интуиция

Теорема Байеса, которую мы только что обсудили выше, настолько до смешного проста и может использоваться в задачах классификации, будь то бинарная или многоклассовая классификация.

Предположим, у нас есть проблема классификационного машинного обучения. Предположим, у нас есть 5 функций X1, X2, X3, X4 и X5, а целевая переменная - Y. Теперь нам нужно подогнать наши данные к этой теореме Байеса, чтобы она могла предсказать вероятность класса Y при заданном наборе. из 5 точек данных (см. применение правила Байеса здесь).

Получаем приведенное выше уравнение. Это можно представить как:

Здесь символ Пи просто суммирует произведения вероятности правдоподобия. Теперь, если вы посмотрите внимательно, знаменатель или предельная вероятность будут постоянными для всех случаев. Следовательно, мы можем определить пропорциональность для приведенного выше уравнения как:

Теперь это даст нам вероятности для обоих классов. Один будет выше (который мы будем считать прогнозируемым классом), а другой - ниже. Следовательно, мы возьмем его argmax (), чтобы получить это значение.

Пример

Теперь рассмотрим следующий простой набор данных, в котором у нас есть 2 таблицы - Outlook и Температура. Здесь Outlook имеет 3 варианта, а именно: Солнечный, Пасмурно и Дождливый, а результат - Да / Нет, будет ли мужчина играть в теннис или нет.

Аналогичным образом вторая таблица содержит данные о температуре и ее влиянии на результат Да / Нет.

А суммарные вероятности «Да» и «Нет» будут выглядеть так:

Теперь проблема в том, что нам нужно выяснить, будет ли мужчина играть или нет, если погода солнечная, а температура жаркая. Или с точки зрения вероятности нам нужно найти P (Да | Сегодня), где Сегодня (Солнечно, Жарко). Здесь погода и температура - это не что иное, как две особенности нашего набора данных. Таким образом, уравнение становится:

Решение вышеуказанного для P (Да | Сегодня) и P (Нет | Сегодня), вставив значения из таблиц выше:

Итак, глядя на вероятности, очевидно, что P (Нет | Сегодня) выше, поэтому прогноз для этого случая будет «Нет». Но это не вероятности классов, и вы могли заметить, что они не составляют в сумме 1. Поэтому нам нужно нормализовать вышеуказанные условные вероятности, чтобы получить вероятности классов:

И чтобы получить вероятность класса для «Нет», мы можем просто вычесть эту вероятность из 1. Следовательно, вероятность «Нет» будет 1–0,27 = 0,73.

Следовательно, алгоритм предсказывает класс как «Нет».

Почему так наивно?

Теперь, переходя к самому важному вопросу (а также к названию этой статьи: p), что такого «наивного» в этом наивном байесовском классификаторе?

Если вы обратили внимание, когда мы выводили уравнение для набора данных с 5 объектами, мы просто умножили все индивидуальные условные вероятности отдельных объектов, например P (X1 | Y) * P (X2 | Y)… * P (X5 | Y). И мы можем записать общую условную вероятность как произведение отдельных условных вероятностей признаков, только если мы предполагаем, что эти признаки независимы друг от друга. Это «наивное» предположение, которое мы сделали здесь, чтобы заставить теорему Байеса работать на нас.

Но в реальной жизни этого почти никогда не бывает, когда функции независимы друг от друга. Внутри функций всегда есть какая-то зависимость. Например, если характеристикой является возраст человека, а другой характеристикой - годовая заработная плата, в большинстве случаев существует явная зависимость.

Однако мы по-прежнему применяем эту теорему к задачам классификации и даже к классификации текста, и она работает на удивление хорошо!