У меня есть набор данных с 8 смешанными функциями (6 числовых и 2 категориальных). Поскольку числовые значения имеют разные диапазоны, мне придется нормализовать набор данных в целом, чтобы иметь возможность выполнять дальнейшие действия, такие как алгоритмы машинного обучения, уменьшение размерности (извлечение признаков).
Мой исходный набор данных:
time v1 v2 v3 ... v7 v8
00:00:01 15435 0.7 13 ... High True
00:00:06 24356 3.6 23 ... High True
00:00:11 25567 8.3 82 ... LOW False
00:00:16 12345 5.4 110 ... LOW True
00:00:21 43246 1.7 93 ... High False
................................................
23:23:59 23456 3.8 45 ... LOW False
где от v1 до v6 — числовые переменные, при которых их значения находятся в разных диапазонах, как видно выше. Более того, v7 и v8 являются категориальными переменными, имеющими только два выхода (для v7 {High, Low} и для v8 {True, False}).
Я сделал кодирование меток для категориальных переменных (v7 и v8), где High и True были закодированы 1, а LOW и False были закодированы 0.
Ниже показано, как выглядит набор данных после кодирования метки:
time v1 v2 v3 ... v7 v8
00:00:01 15435 0.7 13 ... 1 1
00:00:06 24356 3.6 23 ... 1 1
00:00:11 25567 8.3 82 ... 0 0
00:00:16 12345 5.4 110 ... 0 1
00:00:21 43246 1.7 93 ... 1 0
................................................
23:23:59 23456 3.8 45 ... 0 0
Мой вопрос заключается в следующем: легко стандартизировать числовые характеристики от v1 до v6. Однако я не уверен, следует ли стандартизировать категорические наблюдения, и если да, то как лучше всего это сделать??