Матрицы, векторы и основы теории вероятностей, которые должен знать любой специалист по данным

Матрицы

  • Набор элементов, организованных в строки и столбцы.
  • Строки - это горизонтальные линии, а столбцы - вертикальные, оба обычно имеют нулевой индекс.

  • Размеры матрицы: (количество строк) x (количество столбцов)
  • Матричное сложение и вычитание

  • Умножение матриц
    Mat A x Mat B
    (2,3) x (3,2)
    (Ai, Aj) x (Bi, Bj) Внутренние размеры (Aj и Bi) должны быть равно, чтобы иметь возможность выполнять матричное умножение с выходной матрицей с размером внешних измерений (Ai, Bj)

  • Транспонирование матрицы
    Транспонирование матрицы (3x2) дает матрицу (2x3)

  • Обратная матрица
    I называется матрицей идентичности. Она состоит из нулей с диагональю единиц с одинаковыми размерами A.

Векторы

  • Вектор - это матрица размера n x 1
  • Представляет собой прямую линию в n-мерном пространстве

  • Величина вектора (норма): указывает длину вектора.

  • Единичный вектор: вектор с нормой = 1
  • Для n-мерного вектора

  • Норма квадрата вектора эквивалентна

  • Векторы Точечный продукт

  • Для n-мерного вектора

  • Точечный продукт может быть выражен как

  • Если v - единичный вектор, то скалярное произведение эквивалентно проекции вектора u на вектор v
  • Если оба вектора являются единичными векторами, скалярное произведение будет максимальным, если оба вектора идеально выровнены.
  • Если два вектора ортогональны, скалярное произведение будет равно 0

Теория вероятности

Теория вероятностей - это наш способ справиться с неопределенностью в мире. Это математическая основа, которая оценивает вероятность того, что событие произойдет по сравнению с другими возможными событиями. Вероятность находится на очень глубоком уровне многих алгоритмов машинного обучения.

Давайте обсудим самый известный опыт, объясняющий теорию вероятностей. Подбрасывание справедливой монеты дважды
В этом примере пробное пространство представляет собой совокупность всех возможных результатов.
SS = {HH, TH, HT, TT} T - решка, а H - решка. В большинстве случаев вас будет интересовать событие, которое представляет собой подмножество всех возможных исходов, например, вас может заинтересовать только один исход, который соответствует обоим подбросам {HH} или заинтересован в тот факт, что оба броска дают разные лица {HT, TH}.
Вероятность события - это число, присвоенное событию Pr (X). < br /> Pr (X) ›= 0
Pr (SS) = 1
(помните, что SS - это пробел)
Статистика постоянных пользователей: < br /> Pr (X) = n (X) / N
- Если мы повторим эксперимент X N раз. Если n (X) - это количество раз, которое мы наблюдаем X.
Тогда Pr (X) = n (X) / N

Совместная вероятность

Для 2 событий X и Y Совместная вероятность - это вероятность того, что X и Y произойдут одновременно. Какова вероятность того, что первая подбрасывание орла, а вторая - решка.
Pr (1-е - H а 2-й - T) = Pr (1-й - H) Pr (2-й - T) = 0,5 * 0,5 = 0,25.
если X - {HH} и B равно {HT, TH}, совместная вероятность P (XY) равна 0, потому что невозможно, чтобы X и Y происходят одновременно.

Независимость

Если 2 события X, Y независимы, то

То, что X происходит, ничего не говорит о вероятности y. В примере с монетой, если при первом подбрасывании получено H, это ничего не значит относительно второго подбрасывания, это может быть H, а также T, но все же шанс 50–50.

На приведенном выше рисунке это результаты теста на высокое кровяное давление, примененного к людям моложе 30 лет и тем, кто старше. В таблице показаны результаты выборки.
Если X равно {Субъекту менее 30 лет} и Д равно {Субъект не страдает повышенным уровнем крови давление}

Pr (XY) равно 1800/4000,
Pr (X) равно 2000/4000,
Pr (Y) равно 2000/4000
Поскольку Pr (XY) не равно Pr (X) PR (Y), это означает, что X и Y зависимы.

Кондиционирование

если X и Y - события с Pr (X) ›0, условная вероятность Y с учетом X - это

Проще говоря, это означает, что если мы знаем, что произошло Y, какова вероятность X?

Вернемся к этому примеру на рисунке выше,
Если X равно {Субъекту менее 30 лет} и Д равно {Субъект не страдает повышенным уровнем крови давление}

Pr (X | Y) =?
Какова вероятность того, что субъекту меньше 30 лет, если мы знаем, что он / она не страдает повышенным кровяным давлением?
Pr (X | Y) = Pr (XY) / Pr (X) = (1800/4000) / (2000/4000) = 0,9
Pr (Y | X) = Pr (XY) / Pr (Y) = (1800/4000) / (2000/4000) = 0,9
Оба одинаковых значения - просто совпадение, теперь, если у нас есть результат теста это говорит о том, что субъект не страдает высоким кровяным давлением, мы можем оценить в 90% случаев, что субъект моложе 30 лет.

Если мы знаем, что X и Y независимы, тогда Pr (A | B) = Pr (A), вспомните пример с подбрасыванием монеты, если мы знаем, что никакой выход не оказывает особого влияния на другой выход, то вероятность того, что какой-либо выход произойдет, не влияет и не зависит от каких-либо предшествующих условий.

Правило Байеса

Даны 2 события X и Y и предположим, что Pr (X)> 0, тогда

Если у нас есть 2 прямоугольника, один из которых красный, а другой синий, синий прямоугольник содержит 3 плоскости и 1 звезду, а красный прямоугольник содержит 6 звезд и 2 плоскости.
Пусть Pr (выбор из синее поле) составляет 60%, а Pr (выбор из красного поля) составляет 40%.

Форма - S, а прямоугольник - B
Pr (B = r) = 0,4
Pr (B = b) = 0,6

Условная вероятность:
Pr (S = p | B = r) = 1/4
Pr (S = h | B = r) = 3/4
Pr (S = p | B = b) = 3/4
Pr (S = h | B = b) = 1/4

Вероятность выбора самолета:
Это можно интерпретировать как вероятность выбрать самолет из синего поля, если мы выберем синий ящик, и вероятность выбрать самолет из синего поля, если мы выберем его.
Pr (S = p) = Pr (S = p | B = r) p (B = r) + Pr (S = p | B = b) p (B = b) = 1 / 4 * 4/10 + 3/4 * 6/10 = 11/20

Это в значительной степени основы, которые вам нужно знать, чтобы продолжить свой путь в ML. Удачи!