Значения SHAP для регрессора гауссовских процессов равны нулю.

Я пытаюсь получить значения SHAP для модели регрессии гауссовских процессов (GPR) с использованием библиотеки SHAP. Однако все значения SHAP равны нулю. Я использую пример из официальной документации. Я только поменял модель на GPR.

import sklearn
from sklearn.model_selection import train_test_split
import numpy as np
import shap
import time
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import Matern, WhiteKernel, ConstantKernel

shap.initjs()

X,y = shap.datasets.diabetes()
X_train,X_test,y_train,y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# rather than use the whole training set to estimate expected values, we summarize with
# a set of weighted kmeans, each weighted by the number of points they represent.
X_train_summary = shap.kmeans(X_train, 10)


kernel = Matern(length_scale=2, nu=3/2) + WhiteKernel(noise_level=1)   

gp = GaussianProcessRegressor(kernel)
gp.fit(X_train, y_train)

# explain all the predictions in the test set
explainer = shap.KernelExplainer(gp.predict, X_train_summary)
shap_values = explainer.shap_values(X_test)
shap.summary_plot(shap_values, X_test)

Запуск приведенного выше кода дает следующий график:

Когда я использую нейронную сеть или линейную регрессию, приведенный выше код работает без проблем.
Если у вас есть идеи, как решить эту проблему, сообщите мне.

scikit-learn shap gaussian-process

Mohammad 03.03.2021 источник

Ответы (1)

arrow_upward
1
arrow_downward

Ваша модель ничего не предсказывает:

plt.scatter(y_test, gp.predict(X_test));

Обучите свою модель правильно, как показано ниже:

plt.scatter(y_test, gp.predict(X_test));

и ты в порядке:

explainer = shap.KernelExplainer(gp.predict, X_train_summary)
shap_values = explainer.shap_values(X_test)
shap.summary_plot(shap_values, X_test)

Полный воспроизводимый пример:

import sklearn
from sklearn.model_selection import train_test_split
import numpy as np
import shap
import time
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import WhiteKernel, DotProduct

X,y = shap.datasets.diabetes()
X_train,X_test,y_train,y_test = train_test_split(X, y, test_size=0.2, random_state=0)
X_train_summary = shap.kmeans(X_train, 10)
kernel = DotProduct() + WhiteKernel()

gp = GaussianProcessRegressor(kernel)
gp.fit(X_train, y_train)

explainer = shap.KernelExplainer(gp.predict, X_train_summary)
shap_values = explainer.shap_values(X_test)
shap.summary_plot(shap_values, X_test)

Sergey Bushmanov 03.03.2021

comment

Это немного сложно понять, прыгая туда-сюда по странице: единственная ли разница здесь — ядро? - Ben Reiniger; 03.03.2021

comment

@Ben Единственная разница в том, что модель не обучена. Доказательство: я изменил ядра, и это сработало. Производительность модели все еще не очень впечатляющая — я бы ожидал, что линия регрессии будет 45⁰, — но тогда речь идет о том, как правильно обучить GaussianProcessRegressor. И глядя на общий сюжет, это была первая мысль. - Sergey Bushmanov; 03.03.2021

comment

Я имею в виду, что в вашем коде изменилось только ядро (и некоторые комментарии исчезли)? - Ben Reiniger; 03.03.2021

comment

@ Бен Да, верно - Sergey Bushmanov; 03.03.2021

Значения SHAP для регрессора гауссовских процессов равны нулю.

Ответы (1)

Похожие вопросы