Публикации по теме 'one-hot-encoding'
Категориальные признаки в машинном обучении
Категорийные переменные обычно представляются как «строки» или «категории» и имеют конечное число. Например, если вы пытаетесь прогнозировать доход, в наборе данных обычно будут такие функции, как образование, возраст, пол, город и т. д.
Эти функции могут принимать такие значения, как:
Можем ли мы не использовать данные как есть?
Не совсем! Поскольку большинство моделей машинного обучения принимают только числовые переменные, предварительная обработка категориальных..
Методы представления текста для НЛП
Мы не можем просто взять абзац и передать его непосредственно математическому алгоритму; символы, слова или фразы должны быть преобразованы в числа. Для этого существует несколько подходов, и все они имеют свои преимущества и недостатки в зависимости от ваших потребностей.
Горячее кодирование Это просто — каждое слово или символ получает число, а числа представлены в виде вектора единиц и нулей. Например, фраза ниже состоит из трех слов:
Inga goes hiking
Каждое слово можно..
Как работать с категориальными данными в машинном обучении?!
При работе с категориальными данными в машинном обучении можно использовать несколько методов. Некоторые распространенные методы включают однократное кодирование, кодирование меток и целевое кодирование.
Горячее кодирование — это метод, используемый для преобразования категориальных данных в числовой формат. Каждая категория преобразуется в двоичный вектор, где каждый элемент вектора представляет возможное значение категории. Вектор содержит 1 в позиции, соответствующей категории, и..
Вопросы по теме 'one-hot-encoding'
Кодирование 32-битных шестнадцатеричных чисел с использованием OneHotEncoding в sklearn
У меня есть некоторые категориальные функции, хэшированные в 32-битные шестнадцатеричные числа, например, в одной категории три разных класса хэшируются в:
'05db9164' '68fd1e64' '8cf07265'
Одно горячее кодирование отображает их в двоичный...
383 просмотров
schedule
24.10.2022
Разница между бинарной релевантностью и одним горячим кодированием?
Двоичная релевантность - это хорошо известный метод решения проблем классификации с несколькими метками, при котором мы обучаем двоичный классификатор для каждого возможного значения признака:...
653 просмотров
schedule
26.10.2022
R DataFrame - одно горячее кодирование столбца, содержащего несколько терминов
У меня есть фрейм данных со столбцом, имеющим несколько значений (разделенных запятыми):
mydf <- structure(list(Age = c(99L, 10L, 40L, 15L),
Info = c("good, bad, sad", "nice, happy, joy", "NULL", "okay, nice, fun, wild,...
2185 просмотров
schedule
20.02.2023
Sklearn выбрасывает ValueError, когда задана разреженная матрица
Мой классификатор SVM выдает ошибку значения, когда функции представлены разреженной матрицей, но не вызывает ошибки, если функции представлены плотной матрицей.
У меня есть код, который выполняет One Hot Encoding для моих наборов функций и...
482 просмотров
schedule
08.10.2022
Получение названий функций после однократного кодирования
У меня есть набор данных, который я недавно преобразовал с помощью однократного кодирования и использовал его для обучения логистической регрессии лассо. Я пытаюсь получить список ненулевых коэффициентов. Я могу получить список коэффициентов через...
2661 просмотров
schedule
21.03.2022
Как горячая кодировка scikit назначает манекены?
В исследовательской работе я буду использовать модель лассо для классификации и выбора признаков. Я готовлюсь к использованию однократного кодирования для обработки моих категориальных данных, и мне нужно будет выяснить, какие функции соответствуют...
74 просмотров
schedule
15.09.2022
Интерпретация преобразования OneHotEncoding
Я пытаюсь понять вывод процесса onehotencoding с помощью python и scikit-learn. Я считаю, что понял идею одного горячего кодирования. То есть преобразовать дискретные значения в расширенные векторы признаков со значением «включено», чтобы определить...
239 просмотров
schedule
18.11.2022
Как обрабатывать невидимые категориальные значения в наборе тестовых данных с помощью Python?
Предположим, у меня есть функция определения местоположения. В наборе данных поезда его уникальные значения - «Нью-Йорк», «Чикаго». Но в тестовом наборе есть «Нью-Йорк», «Чикаго», «Лондон». Итак, как при создании одной горячей кодировки...
2748 просмотров
schedule
01.04.2023
Обучить мультиклассовый классификатор изображений в Керасе
Я следил за учебником, чтобы научиться обучать классификатор с помощью Keras
https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html
В частности, из второго сценария , предоставленного автором, я хотел...
12666 просмотров
schedule
25.04.2022
Как интерпретировать результаты Spark OneHotEncoder
Я прочитал запись OHE из документов Spark,
Горячее кодирование сопоставляет столбец индексов меток со столбцом двоичных векторов с не более чем одним единичным значением. Это кодирование позволяет алгоритмам, которые ожидают непрерывных...
7063 просмотров
schedule
02.11.2023
Xgboost — нужно ли нам преобразовывать целые числа в множители, если они только 0 и 1
У меня есть много столбцов в кадре данных с флагами «0» и «1». Они принадлежат классу «целое число», когда я импортирую фреймворк данных.
0 означает отсутствие, а 1 означает наличие во всех столбцах.
Мне нужно преобразовать их в фаторы?...
2936 просмотров
schedule
13.11.2022
MATLAB: матрица быстрого преобразования в гистограмму
У меня есть матрица с горячим кодированием (размер 1E6 x 10 ), где каждая строка представляет наблюдение, а каждый столбец представляет категорию. Как я могу создать гистограмму, чтобы визуализировать количество для каждой категории и пометить...
431 просмотров
schedule
03.04.2023
Как правильно выполнить одно горячее кодирование с помощью scikit?
Одной из моих особенностей является категориальная переменная, которая может принимать 29 различных состояний. Я пытаюсь использовать одну горячую кодировку, чтобы преобразовать это, чтобы я мог строить модели прогнозирования, используя эту функцию....
164 просмотров
schedule
14.07.2023
Как я могу горячо кодировать несколько переменных с большими данными в R?
В настоящее время у меня есть фрейм данных с 260000 строками и 50 столбцами, где 3 столбца являются числовыми, а остальные - категориальными. Я хотел выполнить горячее кодирование категориальных столбцов, чтобы выполнить PCA и использовать регрессию...
1857 просмотров
schedule
10.03.2022
Какой Spark ML Feature Transformer следует использовать для преобразования столбца фраз в векторы фиксированной длины?
Допустим, у меня есть Spark DataFrame, в одном из столбцов которого есть короткие фразы. Общее количество уникальных фраз слишком велико, чтобы его можно было использовать в алгоритме машинного обучения, но я думал разбить фразы на слова, а затем...
136 просмотров
schedule
28.01.2023
Одно горячее кодирование в тензорном потоке для пакетного обучения
Мои данные для обучения содержат ~ 1500 меток (строка, одна метка на запись), и я хочу выполнить пакетное обучение (просто загрузите один пакет в память, чтобы обновить веса в нейронной сети). Мне было интересно, есть ли класс в тензорном потоке,...
1764 просмотров
schedule
07.08.2022
Преобразование столбца Pandas Dataframe в одну горячую метку
У меня есть кадр данных pandas, подобный этому:
Col1 ABC
0 XYZ A
1 XYZ B
2 XYZ C
Используя функцию pandas get_dummies() в столбце ABC, я могу получить следующее:
Col1 A B C
0 XYZ 1 0 0
1 XYZ 0 1 0
2...
11378 просмотров
schedule
13.07.2023
Как разрешить одно горячее кодирование, если в моих тестовых данных отсутствуют значения в столбце?
Например, если мои данные обучения имеют категориальные значения (1,2,3,4,5) в столбце, то одна горячая кодировка даст мне 5 столбцов. Но в тестовых данных у меня есть, скажем, только 4 из 5 значений, то есть (1,3,4,5). Таким образом, одно горячее...
5716 просмотров
schedule
28.01.2023
Python sklearn OneHotEncoding категориальные и иногда повторяющиеся значения
Это моя проблема с OneHotEncoder sklearn. с массивом a = [1,2,3,4,5,6,7,8,9,22] , т.е. ВСЕ УНИКАЛЬНЫЕ из a.shape=[10,1] (после reshape(-1,1) возвращается матрица [10,10] значений OneHotEncoded.
array([[ 0., 0., 0., 1., 0., 0., 0., 0.,...
100 просмотров
schedule
14.11.2022
Использование однократного кодировщика для построения деревьев решений
Мне нужно построить деревья решений по категориальным данным. Я понял, что scikit-learn может иметь дело только с числовыми значениями, и тогда рекомендуемый подход заключается в использовании горячего кодирования, предпочтительно с использованием...
729 просмотров
schedule
15.05.2023