Цель отображения эллипса вокруг точек данных — показать доверительный интервал или, другими словами, «сколько данных находится в пределах определенного стандартного отклонения от среднего значения».
В приведенном выше коде он решил отобразить эллипс, который покрывает 95% точек данных. Для нормального распределения ~ 67% данных составляют 1 стандартное отклонение. от среднего, ~ 95% в течение 2 sd. и ~ 99% в течение 3 с.д. (цифры не приходят мне в голову, но вы можете легко убедиться в этом, посчитав площадь под кривой). Следовательно, значение STD=2;
. Вы обнаружите, что conf
приблизительно равно 0.95
.
Расстояние точек данных от центроида данных примерно равно (xi^2+yi^2)^0.5
без учета коэффициентов. Суммы квадратов случайных величин следуют распределению хи-квадрат, и, следовательно, чтобы получить соответствующий 95-й процентиль, он использует обратную функцию хи-квадрат со степенью свободы. 2, так как есть две переменные.
Наконец, обоснование умножения константы масштабирования следует из того факта, что для квадратной матрицы A
с собственными значениями a1,...,an
собственные значения матрицы kA
, где k
— скаляр, равны просто ka1,...,kan
. Собственные значения дают соответствующие длины большой/малой осей эллипса, поэтому масштабирование эллипса или собственных значений до плитки 95% эквивалентно умножению ковариационной матрицы на коэффициент масштабирования.
ИЗМЕНИТЬ
Ченг, хотя вы, возможно, уже знаете это, я предлагаю вам также прочитать этот ответ на вопрос на случайности. Рассмотрим гауссову случайную величину с нулевым средним и единичной дисперсией. PDF набора таких случайных величин выглядит так
![введите здесь описание изображения](https://i.stack.imgur.com/hieZB.png)
Теперь, если бы я взял два таких набора случайных величин, возвел их в квадрат по отдельности и сложил, чтобы сформировать один набор новой случайной величины, его распределение выглядело бы следующим образом.
![введите здесь описание изображения](https://i.stack.imgur.com/TyySg.png)
Это распределение хи-квадрат с 2 степенями свободы (поскольку мы добавили две коллекции).
Уравнение эллипса в приведенном выше коде можно записать как x^2/a^2 +y^2/b^2=k
, где x
, y
— две случайные величины, a
и b
— большая/малая оси, а k
— некоторая константа масштабирования, которую нам нужно вычислить. Как видите, сказанное выше можно интерпретировать как возведение в квадрат и сложение двух наборов гауссовских случайных величин, и мы только что видели выше, как выглядит его распределение. Итак, мы можем сказать, что k
— это случайная величина, распределенная по принципу хи-квадрат с двумя степенями свободы.
Теперь все, что нужно сделать, это найти такое значение для k
, чтобы 95% данных находились внутри него. Так же, как 1s.d, 2s.d, 3s.d. процентили, с которыми мы знакомы с гауссианами, 95-процентная плитка для хи-квадрата с 2 степенями свободы составляет около 6,18. Это то, что Amro получает из функции chi2inv
. С тем же успехом он мог написать scale=chi2inv(0.95,2)
, и было бы то же самое. Просто говоря в терминах n
с.д. вдали от среднего интуитивно.
Просто для иллюстрации, вот приведенный выше PDF-файл распределения хи-квадрат, где 95% площади ‹ около x
заштриховано красным. Это x
составляет ~ 6,18.
![введите здесь описание изображения](https://i.stack.imgur.com/IaSgh.png)
Надеюсь, это помогло.
person
abcd
schedule
06.04.2011