Что на самом деле означает получение информации при интеллектуальном анализе данных?

Information Gain= (Information before split)-(Information after split)

Информационный прирост можно найти с помощью приведенного выше уравнения. Но чего я не понимаю, так это в чем именно смысл этого сбора информации? Означает ли это, что сколько дополнительной информации можно получить или уменьшить путем разбиения по данному атрибуту или чего-то подобного ???

Ссылка на ответ: https://stackoverflow.com/a/1859910/740601


person Samitha Chathuranga    schedule 27.03.2015    source источник


Ответы (2)


Информационный выигрыш - это уменьшение энтропии, достигаемое после разделения данных в соответствии с атрибутом. IG = Энтропия (до разделения) - Энтропия (после разделения). См. http://en.wikipedia.org/wiki/Information_gain_in_decision_trees.

Энтропия - это мера присутствующей неопределенности. Разделяя данные, мы пытаемся уменьшить в них энтропию и получить информацию о них.

Мы хотим максимизировать получение информации, выбирая атрибут и точку разделения, которая снижает энтропию больше всего.

Если энтропия = 0, то из нее нельзя получить никакой дополнительной информации.

person sray    schedule 28.03.2015

Правильно написано это

Прирост информации = энтропия до разделения - средняя энтропия после разделения

разница между энтропией и информацией - это знак. Энтропия высока, если у вас мало информации о данных.

Интуиция основана на статистической теории информации. Примерная идея такова: сколько битов на запись нужно для кодирования присвоения метки класса? Если у вас остался только один класс, вам нужно 0 бит на запись. Если у вас хаотичный набор данных, вам понадобится 1 бит для каждой записи. А если класс неуравновешен, вы можете обойтись меньшим, используя (теоретически!) Оптимальную схему сжатия; например путем кодирования только исключений. Чтобы соответствовать этой интуиции, вы, конечно же, должны использовать логарифм с основанием 2.

Раскол считается хорошим, если впоследствии у ветвей в среднем будет более низкая энтропия. Затем вы получили информацию о метке класса, разделив набор данных. Значение IG - это среднее количество бит информации, полученное вами для прогнозирования метки класса.

person Has QUIT--Anony-Mousse    schedule 28.03.2015