Стартовый код, который вы можете изменить для своего варианта использования Random Forest.
Случайный лес — это контролируемый алгоритм обучения, который используется как для классификации, так и для регрессии. Существует множество различных моделей, позволяющих прогнозировать данные классификации. Логистическая регрессия является одной из наиболее распространенных для биномиальных данных. Другие методологии включают машины опорных векторов (SVM), наивный байесовский метод и k-ближайших соседей. Случайные леса, как правило, проявляют себя в сценариях, где модель имеет большое количество признаков, которые по отдельности имеют слабую предикативную силу, но гораздо большую силу в совокупности.
В этой статье я дам вам краткое руководство о том, как реализовать модель случайного леса в Python для задач классификации.
Импортировать библиотеки:
# Imports # pandas import pandas as pd from pandas import Series,DataFrame # numpy, matplotlib, seaborn import numpy as np import matplotlib.pyplot as plt import seaborn as sns sns.set_style('whitegrid') %matplotlib inline # machine learning from sklearn.linear_model import LogisticRegression from sklearn.svm import SVC, LinearSVC from sklearn.ensemble import RandomForestClassifier,GradientBoostingClassifier from sklearn.neighbors import KNeighborsClassifier from sklearn.naive_bayes import GaussianNB
Импортируйте данные:
# get titanic & test csv files as a DataFrame titanic_df = pd.read_csv("../input/train.csv") test_df = pd.read_csv("../input/test.csv")
Удалить ненужные данные:
# drop unnecessary columns, these columns won't be useful in analysis and prediction titanic_df = titanic_df.drop(['PassengerId','Name','Ticket'], axis=1) test_df = test_df.drop(['Name','Ticket'], axis=1)
Определите разделение обучающих и тестовых данных:
# define training and testing sets X_train = titanic_df.drop("Survived",axis=1) Y_train = titanic_df["Survived"] X_test = test_df.drop("PassengerId",axis=1).copy()
Обучите модель:
# Random Forests random_forest = RandomForestClassifier(n_estimators=100,oob_score=True,max_features=5) random_forest.fit(X_train, Y_train) Y_pred = random_forest.predict(X_test) random_forest.score(X_train, Y_train) OP : 0.9640852974186308
Это было простое руководство по началу работы со случайными лесами!
Протяните руку и прокомментируйте, если вы застряли!
Другие статьи, которые могут быть интересны:
- «Панды 10-минутный путеводитель. Это послужит основным руководством для получения… | Сэм | компьютерная культура | январь 2022 г. | Середина"
- «Красивые сюжеты с Seaborn. Создавайте участки, которые получат ваши… | Сэм | компьютерная культура | январь 2022 г. | Середина"
- «Ваш контрольный список Numpy. Быстрый взгляд на все важные… | Сэм | компьютерная культура | январь 2022 г. | Середина"
- «Ваш контрольный список Numpy. Быстрый взгляд на все важные… | Сэм | компьютерная культура | январь 2022 г. | Середина"
- «Начало работы с Apache Spark — I | Сэм | компьютерная культура | январь 2022 г. | Середина"
Ура и следите за большим количеством такого контента! :)