Публикации по теме 'one-hot-encoding'


Категориальные признаки в машинном обучении
Категорийные переменные обычно представляются как «строки» или «категории» и имеют конечное число. Например, если вы пытаетесь прогнозировать доход, в наборе данных обычно будут такие функции, как образование, возраст, пол, город и т. д. Эти функции могут принимать такие значения, как: Можем ли мы не использовать данные как есть? Не совсем! Поскольку большинство моделей машинного обучения принимают только числовые переменные, предварительная обработка категориальных..

Методы представления текста для НЛП
Мы не можем просто взять абзац и передать его непосредственно математическому алгоритму; символы, слова или фразы должны быть преобразованы в числа. Для этого существует несколько подходов, и все они имеют свои преимущества и недостатки в зависимости от ваших потребностей. Горячее кодирование Это просто — каждое слово или символ получает число, а числа представлены в виде вектора единиц и нулей. Например, фраза ниже состоит из трех слов: Inga goes hiking Каждое слово можно..

Как работать с категориальными данными в машинном обучении?!
При работе с категориальными данными в машинном обучении можно использовать несколько методов. Некоторые распространенные методы включают однократное кодирование, кодирование меток и целевое кодирование. Горячее кодирование — это метод, используемый для преобразования категориальных данных в числовой формат. Каждая категория преобразуется в двоичный вектор, где каждый элемент вектора представляет возможное значение категории. Вектор содержит 1 в позиции, соответствующей категории, и..

Вопросы по теме 'one-hot-encoding'

Кодирование 32-битных шестнадцатеричных чисел с использованием OneHotEncoding в sklearn
У меня есть некоторые категориальные функции, хэшированные в 32-битные шестнадцатеричные числа, например, в одной категории три разных класса хэшируются в: '05db9164' '68fd1e64' '8cf07265' Одно горячее кодирование отображает их в двоичный...
383 просмотров

Разница между бинарной релевантностью и одним горячим кодированием?
Двоичная релевантность - это хорошо известный метод решения проблем классификации с несколькими метками, при котором мы обучаем двоичный классификатор для каждого возможного значения признака:...
653 просмотров

R DataFrame - одно горячее кодирование столбца, содержащего несколько терминов
У меня есть фрейм данных со столбцом, имеющим несколько значений (разделенных запятыми): mydf <- structure(list(Age = c(99L, 10L, 40L, 15L), Info = c("good, bad, sad", "nice, happy, joy", "NULL", "okay, nice, fun, wild,...
2185 просмотров
schedule 20.02.2023

Sklearn выбрасывает ValueError, когда задана разреженная матрица
Мой классификатор SVM выдает ошибку значения, когда функции представлены разреженной матрицей, но не вызывает ошибки, если функции представлены плотной матрицей. У меня есть код, который выполняет One Hot Encoding для моих наборов функций и...
482 просмотров

Получение названий функций после однократного кодирования
У меня есть набор данных, который я недавно преобразовал с помощью однократного кодирования и использовал его для обучения логистической регрессии лассо. Я пытаюсь получить список ненулевых коэффициентов. Я могу получить список коэффициентов через...
2661 просмотров
schedule 21.03.2022

Как горячая кодировка scikit назначает манекены?
В исследовательской работе я буду использовать модель лассо для классификации и выбора признаков. Я готовлюсь к использованию однократного кодирования для обработки моих категориальных данных, и мне нужно будет выяснить, какие функции соответствуют...
74 просмотров
schedule 15.09.2022

Интерпретация преобразования OneHotEncoding
Я пытаюсь понять вывод процесса onehotencoding с помощью python и scikit-learn. Я считаю, что понял идею одного горячего кодирования. То есть преобразовать дискретные значения в расширенные векторы признаков со значением «включено», чтобы определить...
239 просмотров
schedule 18.11.2022

Как обрабатывать невидимые категориальные значения в наборе тестовых данных с помощью Python?
Предположим, у меня есть функция определения местоположения. В наборе данных поезда его уникальные значения - «Нью-Йорк», «Чикаго». Но в тестовом наборе есть «Нью-Йорк», «Чикаго», «Лондон». Итак, как при создании одной горячей кодировки...
2748 просмотров

Обучить мультиклассовый классификатор изображений в Керасе
Я следил за учебником, чтобы научиться обучать классификатор с помощью Keras https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html В частности, из второго сценария , предоставленного автором, я хотел...
12666 просмотров

Как интерпретировать результаты Spark OneHotEncoder
Я прочитал запись OHE из документов Spark, Горячее кодирование сопоставляет столбец индексов меток со столбцом двоичных векторов с не более чем одним единичным значением. Это кодирование позволяет алгоритмам, которые ожидают непрерывных...
7063 просмотров

Xgboost — нужно ли нам преобразовывать целые числа в множители, если они только 0 и 1
У меня есть много столбцов в кадре данных с флагами «0» и «1». Они принадлежат классу «целое число», когда я импортирую фреймворк данных. 0 означает отсутствие, а 1 означает наличие во всех столбцах. Мне нужно преобразовать их в фаторы?...
2936 просмотров
schedule 13.11.2022

MATLAB: матрица быстрого преобразования в гистограмму
У меня есть матрица с горячим кодированием (размер 1E6 x 10 ), где каждая строка представляет наблюдение, а каждый столбец представляет категорию. Как я могу создать гистограмму, чтобы визуализировать количество для каждой категории и пометить...
431 просмотров
schedule 03.04.2023

Как правильно выполнить одно горячее кодирование с помощью scikit?
Одной из моих особенностей является категориальная переменная, которая может принимать 29 различных состояний. Я пытаюсь использовать одну горячую кодировку, чтобы преобразовать это, чтобы я мог строить модели прогнозирования, используя эту функцию....
164 просмотров

Как я могу горячо кодировать несколько переменных с большими данными в R?
В настоящее время у меня есть фрейм данных с 260000 строками и 50 столбцами, где 3 столбца являются числовыми, а остальные - категориальными. Я хотел выполнить горячее кодирование категориальных столбцов, чтобы выполнить PCA и использовать регрессию...
1857 просмотров

Какой Spark ML Feature Transformer следует использовать для преобразования столбца фраз в векторы фиксированной длины?
Допустим, у меня есть Spark DataFrame, в одном из столбцов которого есть короткие фразы. Общее количество уникальных фраз слишком велико, чтобы его можно было использовать в алгоритме машинного обучения, но я думал разбить фразы на слова, а затем...
136 просмотров

Одно горячее кодирование в тензорном потоке для пакетного обучения
Мои данные для обучения содержат ~ 1500 меток (строка, одна метка на запись), и я хочу выполнить пакетное обучение (просто загрузите один пакет в память, чтобы обновить веса в нейронной сети). Мне было интересно, есть ли класс в тензорном потоке,...
1764 просмотров

Преобразование столбца Pandas Dataframe в одну горячую метку
У меня есть кадр данных pandas, подобный этому: Col1 ABC 0 XYZ A 1 XYZ B 2 XYZ C Используя функцию pandas get_dummies() в столбце ABC, я могу получить следующее: Col1 A B C 0 XYZ 1 0 0 1 XYZ 0 1 0 2...
11378 просмотров

Как разрешить одно горячее кодирование, если в моих тестовых данных отсутствуют значения в столбце?
Например, если мои данные обучения имеют категориальные значения (1,2,3,4,5) в столбце, то одна горячая кодировка даст мне 5 столбцов. Но в тестовых данных у меня есть, скажем, только 4 из 5 значений, то есть (1,3,4,5). Таким образом, одно горячее...
5716 просмотров

Python sklearn OneHotEncoding категориальные и иногда повторяющиеся значения
Это моя проблема с OneHotEncoder sklearn. с массивом a = [1,2,3,4,5,6,7,8,9,22] , т.е. ВСЕ УНИКАЛЬНЫЕ из a.shape=[10,1] (после reshape(-1,1) возвращается матрица [10,10] значений OneHotEncoded. array([[ 0., 0., 0., 1., 0., 0., 0., 0.,...
100 просмотров

Использование однократного кодировщика для построения деревьев решений
Мне нужно построить деревья решений по категориальным данным. Я понял, что scikit-learn может иметь дело только с числовыми значениями, и тогда рекомендуемый подход заключается в использовании горячего кодирования, предпочтительно с использованием...
729 просмотров