Вопросы по теме 'train-test-split'
Train Test Split для списка фреймов данных - Pandas
У меня есть список фреймов данных, которые я хочу разделить на обучающие и тестовые наборы. Для одного DataFrame я мог бы сделать следующее:
Получить длину тестового разделения
split_point = len(df)- 125
а потом,
train, test =...
359 просмотров
schedule
10.11.2023
Создайте обучающие и тестовые переменные из загруженного файла arff
Я хочу выполнить многоуровневую классификацию. У меня есть набор данных в формате arff, который я загружаю. Однако сейчас я не знаю, как преобразовать данные импорта в векторы X и Y, чтобы применить sklearn/train_test_split.
Как я могу получить X...
487 просмотров
schedule
21.10.2022
Изменение значения случайного состояния изменяет точность модели
При тестировании моей модели линейной регрессии я обнаружил, что изменение параметра random_state в train_test_split меняет точность модели.
Чтобы уточнить, мой тестовый раскол поезда выглядит следующим образом:
boston_data = load_boston()...
1036 просмотров
schedule
08.07.2022
Разница между перекрестной проверкой и validation_data / validation_split в Keras
Сначала я разделил набор данных на обучение и тестирование, например:
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.4, random_state=999)
Затем я использую GridSearchCV с перекрестной проверкой,...
1509 просмотров
schedule
16.05.2022
Порядок использования наборов для проверки, обучения и тестирования
Я пытаюсь понять процесс оценки и проверки модели в машинном обучении. В частности, в каком порядке и как должны использоваться наборы для обучения, проверки и тестирования.
Допустим, у меня есть набор данных, и я хочу использовать линейную...
360 просмотров
schedule
21.09.2022
Почему точность метода GridSearchCV ниже стандартного метода?
Я использую train_test_split ( random_state = 0 ) и дерево решений без какой-либо настройки параметров для моделирования своих данных, я запускаю его около 50 раз для достижения максимальной точности.
import pandas as pd
import numpy as np
from...
848 просмотров
schedule
10.09.2022
Небольшой набор данных, обучение разделению тестов или обучение Val и Test?
Я сделал некоторые прогнозы (акции) для своей диссертации. Я использовал только фиксированное количество 600 образцов (не могу это изменить). Из-за небольшого набора данных я сделал только тренировку и тестовое разделение (без проверки и т. Д.). Я...
268 просмотров
schedule
16.07.2022
Не те же столбцы в разделении train-est для модели машинного обучения Python
Я тренирую модель машинного обучения, чтобы прогнозировать стоимость строительства.
Одна из колонок - в каком городе находится здание. У меня много городов
Unincorporated County 244550
Miami 91486
Miami Beach...
23 просмотров
schedule
03.01.2022
NameError: имя «skimage» не определено
я пытаюсь понять, как использовать SVM для классификации изображений, используя изображения из моего собственного набора данных, для чего я использую блокнот по его ссылке: https://github.com/whimian/SVM-Image-Classification . Проблема в том, что...
3119 просмотров
schedule
27.12.2023
Следует ли мне стандартизировать и отбрасывать тренд перед сплит-тренингом или тестированием?
Я новичок в python и пытаюсь выполнить задачу случайной регрессии леса. Я импортирую свой набор данных, в котором всего 5 столбцов (включая столбец даты). Мои данные зависят от времени, поэтому я не могу использовать разделение поездов / тестов....
190 просмотров
schedule
02.04.2022
Возвращает индекс выбранного набора тестов Python
Я пытаюсь получить индекс данных, выбранных тестовыми данными. Сначала я использую train-test-split для своих данных.
A = [[1,2],[3,4],[6,2],[3,4]]
y = [1,0,0,1]
from sklearn.model_selection import train_test_split
A_train, A_test,y_train,y_test...
49 просмотров
schedule
15.08.2022
Использование Catboost Classifier для преобразования категориальных столбцов
Я пытаюсь применить CatBoost к одному из моих столбцов для категориальных функций, но получаю следующую ошибку:
CatBoostError: Invalid type for cat_feature[non-default value idx=0,feature_idx=2]=68892500.0 : cat_features must be integer or string,...
90 просмотров
schedule
01.07.2023
Почему я получаю сообщение об ошибке GroupShuffleSplit (разделение теста на поезд)
У меня есть 2 набора данных и я применяю 5 разных моделей машинного обучения.
Набор данных 1:
def dataset_1():
...
...
bike_data_hours = bike_data_hours[:500]
X = bike_data_hours.iloc[:, :-1].values
y = bike_data_hours.iloc[:,...
12 просмотров
schedule
06.09.2022