Вопросы по теме 'train-test-split'

Train Test Split для списка фреймов данных - Pandas
У меня есть список фреймов данных, которые я хочу разделить на обучающие и тестовые наборы. Для одного DataFrame я мог бы сделать следующее: Получить длину тестового разделения split_point = len(df)- 125 а потом, train, test =...
359 просмотров
schedule 10.11.2023

Создайте обучающие и тестовые переменные из загруженного файла arff
Я хочу выполнить многоуровневую классификацию. У меня есть набор данных в формате arff, который я загружаю. Однако сейчас я не знаю, как преобразовать данные импорта в векторы X и Y, чтобы применить sklearn/train_test_split. Как я могу получить X...
487 просмотров

Изменение значения случайного состояния изменяет точность модели
При тестировании моей модели линейной регрессии я обнаружил, что изменение параметра random_state в train_test_split меняет точность модели. Чтобы уточнить, мой тестовый раскол поезда выглядит следующим образом: boston_data = load_boston()...
1036 просмотров

Разница между перекрестной проверкой и validation_data / validation_split в Keras
Сначала я разделил набор данных на обучение и тестирование, например: X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.4, random_state=999) Затем я использую GridSearchCV с перекрестной проверкой,...
1509 просмотров

Порядок использования наборов для проверки, обучения и тестирования
Я пытаюсь понять процесс оценки и проверки модели в машинном обучении. В частности, в каком порядке и как должны использоваться наборы для обучения, проверки и тестирования. Допустим, у меня есть набор данных, и я хочу использовать линейную...
360 просмотров

Почему точность метода GridSearchCV ниже стандартного метода?
Я использую train_test_split ( random_state = 0 ) и дерево решений без какой-либо настройки параметров для моделирования своих данных, я запускаю его около 50 раз для достижения максимальной точности. import pandas as pd import numpy as np from...
848 просмотров

Небольшой набор данных, обучение разделению тестов или обучение Val и Test?
Я сделал некоторые прогнозы (акции) для своей диссертации. Я использовал только фиксированное количество 600 образцов (не могу это изменить). Из-за небольшого набора данных я сделал только тренировку и тестовое разделение (без проверки и т. Д.). Я...
268 просмотров

Не те же столбцы в разделении train-est для модели машинного обучения Python
Я тренирую модель машинного обучения, чтобы прогнозировать стоимость строительства. Одна из колонок - в каком городе находится здание. У меня много городов Unincorporated County 244550 Miami 91486 Miami Beach...
23 просмотров

NameError: имя «skimage» не определено
я пытаюсь понять, как использовать SVM для классификации изображений, используя изображения из моего собственного набора данных, для чего я использую блокнот по его ссылке: https://github.com/whimian/SVM-Image-Classification . Проблема в том, что...
3119 просмотров
schedule 27.12.2023

Следует ли мне стандартизировать и отбрасывать тренд перед сплит-тренингом или тестированием?
Я новичок в python и пытаюсь выполнить задачу случайной регрессии леса. Я импортирую свой набор данных, в котором всего 5 столбцов (включая столбец даты). Мои данные зависят от времени, поэтому я не могу использовать разделение поездов / тестов....
190 просмотров

Возвращает индекс выбранного набора тестов Python
Я пытаюсь получить индекс данных, выбранных тестовыми данными. Сначала я использую train-test-split для своих данных. A = [[1,2],[3,4],[6,2],[3,4]] y = [1,0,0,1] from sklearn.model_selection import train_test_split A_train, A_test,y_train,y_test...
49 просмотров
schedule 15.08.2022

Использование Catboost Classifier для преобразования категориальных столбцов
Я пытаюсь применить CatBoost к одному из моих столбцов для категориальных функций, но получаю следующую ошибку: CatBoostError: Invalid type for cat_feature[non-default value idx=0,feature_idx=2]=68892500.0 : cat_features must be integer or string,...
90 просмотров

Почему я получаю сообщение об ошибке GroupShuffleSplit (разделение теста на поезд)
У меня есть 2 набора данных и я применяю 5 разных моделей машинного обучения. Набор данных 1: def dataset_1(): ... ... bike_data_hours = bike_data_hours[:500] X = bike_data_hours.iloc[:, :-1].values y = bike_data_hours.iloc[:,...
12 просмотров