Предварительная обработка данных. Перед разработкой модели машинного обучения предварительная обработка

Предварительная обработка данных. Перед разработкой модели машинного обучения предварительная обработка является наиболее важной задачей для анализа данных, чтобы убедиться, что данные содержат ценную информацию.

набор данных: https://www.kaggle.com/datasets/taukir007/house-renting-netherland?select=housingprice_neatherland.csv

Что мы собираемся делать?

(а) Импорт данных

(b) Поиск информации о данных (нулевое значение, описание данных и т. д.)

(c)Удаление ненужных параметров в столбцах

(d) Переименование столбцов (при необходимости)

# import the necessary library 
import pandas as pd
import numpy as np
import seaborn as sns 
import matplotlib.pyplot as plt

(a) Импорт (чтение) набора данных

Чтение файла CSV: сначала нужно прочитать данные в формате CSV.

df=pd.read_csv("../input/house-renting-netherland/housingprice_neatherland.csv")

Head() возвращает первые n строк фрейма данных.

df.head()

(b) Поиск информации о данных (нулевое значение, описание данных и т. д.)

df.info() предоставляет информацию о данных

df.info()

Это предоставляет информацию об отсутствующих данных, если это false, это означает, что фрейм данных не имеет нулевых значений или отсутствующих значений, в противном случае, если это правда, означает наличие отсутствующих значений. нам нужно заменить нулевые значения на "NaN" для обработки данных.

df.isnull().sum

(c)Удаление ненужных параметров в столбцах

Теперь удаляем столбцы с 24 по 30 во фреймах данных.

Здесь мы дали index[24:31]означает доступ к от 24 до 30(удаление), ось=0 (строки, которые мы хотим удалить, если есть ось =1, означает столбцы ), требуется inplace = True.

df.drop(df.index[24:31],axis=0,inplace=True)

Удаление слов "в месяц" из столбца цена, "м²" из столбца Площадь, ', ' и Знаки Евро.

df['Price']=df['Price'].str.replace('per month','')
df['Area']=df['Area'].str.replace('m²','')
df['Price']=df['Price'].str.replace(',','')
df['Price']=df['Price'].str.replace('€','')

(d) Переименование столбцов (при необходимости)

В заголовке столбца "название" опечатка.

df.rename(columns={"Ttile":"Title"})

Предварительная обработка данных. Перед разработкой модели машинного обучения предварительная обработка — это…

Похожие вопросы