Предварительная обработка данных. Перед разработкой модели машинного обучения предварительная обработка является наиболее важной задачей для анализа данных, чтобы убедиться, что данные содержат ценную информацию.
набор данных: https://www.kaggle.com/datasets/taukir007/house-renting-netherland?select=housingprice_neatherland.csv
Что мы собираемся делать?
(а) Импорт данных
(b) Поиск информации о данных (нулевое значение, описание данных и т. д.)
(c)Удаление ненужных параметров в столбцах
(d) Переименование столбцов (при необходимости)
# import the necessary library import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt
(a) Импорт (чтение) набора данных
Чтение файла CSV: сначала нужно прочитать данные в формате CSV.
df=pd.read_csv("../input/house-renting-netherland/housingprice_neatherland.csv")
Head() возвращает первые n строк фрейма данных.
df.head()
(b) Поиск информации о данных (нулевое значение, описание данных и т. д.)
df.info() предоставляет информацию о данных
df.info()
Это предоставляет информацию об отсутствующих данных, если это false, это означает, что фрейм данных не имеет нулевых значений или отсутствующих значений, в противном случае, если это правда, означает наличие отсутствующих значений. нам нужно заменить нулевые значения на "NaN" для обработки данных.
df.isnull().sum
(c)Удаление ненужных параметров в столбцах
Теперь удаляем столбцы с 24 по 30 во фреймах данных.
Здесь мы дали index[24:31]означает доступ к от 24 до 30(удаление), ось=0 (строки, которые мы хотим удалить, если есть ось =1, означает столбцы ), требуется inplace = True.
df.drop(df.index[24:31],axis=0,inplace=True)
Удаление слов "в месяц" из столбца цена, "м²" из столбца Площадь, ', ' и Знаки Евро.
df['Price']=df['Price'].str.replace('per month','') df['Area']=df['Area'].str.replace('m²','') df['Price']=df['Price'].str.replace(',','') df['Price']=df['Price'].str.replace('€','')
(d) Переименование столбцов (при необходимости)
В заголовке столбца "название" опечатка.
df.rename(columns={"Ttile":"Title"})