Алгоритм дерева решений для смешанных числовых и номинальных данных

мой набор данных содержит ряд числовых и категориальных атрибутов

пример: numericAttr1, numericAttr2, categoricalAttr1, numericAttr3... где значения categoricalAttr: categoricalAttrValue1, categoricalAttrValue2, categoricalAttrValue3.

Я думал преобразовать числовые данные в категориальные данные (используя алгоритм биннинга) и применить алгоритм ID3 для создания дерева, потому что ID3 имеет дело только с дискретными данными. но как справиться с переоснащением? а также правильно ли классифицировать числовые данные и применять алгоритм ID3?


person bona912    schedule 17.01.2017    source источник
comment
Поскольку этот вопрос в первую очередь касается машинного обучения в целом, а не конкретной платформы или проблемы с кодированием, я предлагаю задать его на странице stats.stackexchange.com   -  person Sentry    schedule 22.01.2017


Ответы (2)


Если переоснащение является проблемой, и можно заменить вашу модель, я бы предложил использовать случайные леса, поскольку они очень невосприимчивы к переоснащению.

Также вам не следует беспокоиться о том, что процесс биннинга вызовет переоснащение, поскольку он создает обобщение имеющихся у вас данных и, скорее всего, уменьшит переоснащение.

person ginge    schedule 17.01.2017