Предварительная обработка данных. Перед разработкой модели машинного обучения предварительная обработка является наиболее важной задачей для анализа данных, чтобы убедиться, что данные содержат ценную информацию.

набор данных: https://www.kaggle.com/datasets/taukir007/house-renting-netherland?select=housingprice_neatherland.csv

Что мы собираемся делать?

(а) Импорт данных

(b) Поиск информации о данных (нулевое значение, описание данных и т. д.)

(c)Удаление ненужных параметров в столбцах

(d) Переименование столбцов (при необходимости)

# import the necessary library 
import pandas as pd
import numpy as np
import seaborn as sns 
import matplotlib.pyplot as plt 

(a) Импорт (чтение) набора данных

Чтение файла CSV: сначала нужно прочитать данные в формате CSV.

df=pd.read_csv("../input/house-renting-netherland/housingprice_neatherland.csv")

Head() возвращает первые n строк фрейма данных.

df.head()

(b) Поиск информации о данных (нулевое значение, описание данных и т. д.)

df.info() предоставляет информацию о данных

df.info()

Это предоставляет информацию об отсутствующих данных, если это false, это означает, что фрейм данных не имеет нулевых значений или отсутствующих значений, в противном случае, если это правда, означает наличие отсутствующих значений. нам нужно заменить нулевые значения на "NaN" для обработки данных.

df.isnull().sum

(c)Удаление ненужных параметров в столбцах

Теперь удаляем столбцы с 24 по 30 во фреймах данных.

Здесь мы дали index[24:31]означает доступ к от 24 до 30(удаление), ось=0 (строки, которые мы хотим удалить, если есть ось =1, означает столбцы ), требуется inplace = True.

df.drop(df.index[24:31],axis=0,inplace=True)
        

Удаление слов "в месяц" из столбца цена, "м²" из столбца Площадь, ', ' и Знаки Евро.

df['Price']=df['Price'].str.replace('per month','')
df['Area']=df['Area'].str.replace('m²','')
df['Price']=df['Price'].str.replace(',','')
df['Price']=df['Price'].str.replace('€','')

(d) Переименование столбцов (при необходимости)

В заголовке столбца "название" опечатка.

df.rename(columns={"Ttile":"Title"})