Я создаю преобразователь в sklearn, который отбрасывает функции с коэффициентом корреляции ниже указанного порога.
Работает на тренировочном наборе. Однако, когда я преобразовываю тестовый набор. Все функции в тестовом наборе исчезнут. Я предполагаю, что преобразователь вычисляет корреляции между тестовыми данными и обучающей меткой, и, поскольку все они низкие, он отбрасывает все функции. Как мне заставить его вычислять корреляции только в обучающем наборе и удалять эти функции из тестового набора при преобразовании?
class CorrelatedFeatures(BaseEstimator, TransformerMixin): #Selects only features that have a correlation coefficient higher than threshold with the response label
def __init__(self, response, threshold=0.1):
self.threshold = threshold
self.response = response
def fit(self, X, y=None):
return self
def transform(self, X, y=None):
df = pd.concat([X, self.response], axis=1)
cols = df.columns[abs(df.corr()[df.columns[-1]]) > self.threshold].drop(self.response.columns)
return X[cols]