Блокнот для начинающих со случайным лесом!

Стартовый код, который вы можете изменить для своего варианта использования Random Forest.

Случайный лес — это контролируемый алгоритм обучения, который используется как для классификации, так и для регрессии. Существует множество различных моделей, позволяющих прогнозировать данные классификации. Логистическая регрессия является одной из наиболее распространенных для биномиальных данных. Другие методологии включают машины опорных векторов (SVM), наивный байесовский метод и k-ближайших соседей. Случайные леса, как правило, проявляют себя в сценариях, где модель имеет большое количество признаков, которые по отдельности имеют слабую предикативную силу, но гораздо большую силу в совокупности.

В этой статье я дам вам краткое руководство о том, как реализовать модель случайного леса в Python для задач классификации.

Импортировать библиотеки:

# Imports

# pandas
import pandas as pd
from pandas import Series,DataFrame

# numpy, matplotlib, seaborn
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid')
%matplotlib inline

# machine learning
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC, LinearSVC
from sklearn.ensemble import RandomForestClassifier,GradientBoostingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB

Импортируйте данные:

# get titanic & test csv files as a DataFrame
titanic_df = pd.read_csv("../input/train.csv")
test_df    = pd.read_csv("../input/test.csv")

Удалить ненужные данные:

# drop unnecessary columns, these columns won't be useful in analysis and prediction
titanic_df = titanic_df.drop(['PassengerId','Name','Ticket'], axis=1)
test_df    = test_df.drop(['Name','Ticket'], axis=1)

Определите разделение обучающих и тестовых данных:

# define training and testing sets

X_train = titanic_df.drop("Survived",axis=1)
Y_train = titanic_df["Survived"]
X_test  = test_df.drop("PassengerId",axis=1).copy()

Обучите модель:

# Random Forests

random_forest = RandomForestClassifier(n_estimators=100,oob_score=True,max_features=5)
random_forest.fit(X_train, Y_train)
Y_pred = random_forest.predict(X_test)
random_forest.score(X_train, Y_train)
OP : 0.9640852974186308

Это было простое руководство по началу работы со случайными лесами!

Протяните руку и прокомментируйте, если вы застряли!

Другие статьи, которые могут быть интересны:

«Панды 10-минутный путеводитель. Это послужит основным руководством для получения… | Сэм | компьютерная культура | январь 2022 г. | Середина"
«Красивые сюжеты с Seaborn. Создавайте участки, которые получат ваши… | Сэм | компьютерная культура | январь 2022 г. | Середина"
«Ваш контрольный список Numpy. Быстрый взгляд на все важные… | Сэм | компьютерная культура | январь 2022 г. | Середина"
«Ваш контрольный список Numpy. Быстрый взгляд на все важные… | Сэм | компьютерная культура | январь 2022 г. | Середина"
«Начало работы с Apache Spark — I | Сэм | компьютерная культура | январь 2022 г. | Середина"

Ура и следите за большим количеством такого контента! :)

Блокнот для начинающих со случайным лесом!

Похожие вопросы