В моем последнем посте я обсуждал свой последний пост о том, как иметь возможность читать json-файл в pandas, я обсуждал, как Фрэнсис Анскомб получил набор данных во сне. Этот набор данных имел очень похожие статистические свойства, но когда они были нанесены на график, все четыре набора данных выглядели по-разному. Урок, извлеченный из этого набора данных, заключался в том, что специалистам по данным необходимо нанести точки данных на график, чтобы увидеть, как они выглядят, прежде чем анализировать их с помощью вычислительных средств. Ссылку на мой последний пост, в котором я обсуждал набор данных Anscombe, можно найти здесь: https://medium.com/geekculture/how-to-read-a-json-file-in-python-ac63d2042577.

Поскольку очень важно нанести точки на набор данных перед его анализом, важно знать, как это сделать. У Pandas есть целая страница, посвященная построению графиков, и эту страницу можно найти здесь: https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html.

Я подумал, что было бы неплохо нанести точки на набор данных о ценах на жилье в Портленде, штат Орегон, потому что он небольшой и простой в использовании. Ссылку на набор данных Портленда, штат Орегон, можно найти здесь: https://www.kaggle.com/kennethjohn/housingprice.

Сначала мне нужно было создать блокнот Jupyter, чтобы отображать точки набора данных Portland на графике, поэтому я решил использовать бесплатный онлайн-блокнот Jupyter от Kaggle.

После того, как я создал блокнот, в котором будет написан скрипт, мне пришлось импортировать библиотеки, которые я буду использовать в программе. В этой программе я решил импортировать numpy, pandas, os и matplotlib. Numpy выполняет алгебраические вычисления, pandas создает и поддерживает кадры данных, os входит в операционную систему и загружает набор данных, используемый в программе, а matplotlib отображает точки данных на графике:

После того, как я импортировал библиотеки, я использовал os, чтобы войти в операционную систему и получить текстовый файл, который будет использоваться в программе:

Затем я прочитал созданный фрейм данных, df и прочитал в него текстовый файл. К счастью, я смог использовать функцию pandas read_csv для чтения текстового файла. В txt файле не было заголовка, поэтому я определил столбцы, футы, полосу и цену:

Я решил проанализировать цены, поэтому создал гистограмму, используя только столбец цена для этого предприятия. В прошлом я использовал seaborn для создания гистограммы для анализа цели, поэтому приятно знать, что я могу выполнить ту же задачу, используя только pandas и matplotlib: -

Несмотря на то, что это небольшой набор данных, мне понадобились только две функции для построения графика в pandas. К счастью, если в программе установлена ​​библиотека matplotlib, граф pandas можно создать, используя только эти две библиотеки. Приведенный ниже код представляет собой очень простой график, в котором используется столбец футов для переменной x и столбец цена для переменной y:

Поскольку необходимо отображать точки данных из набора данных, специалисты по данным неизбежно учатся строить графики в своих программах. Существует несколько типов графиков, которые могут быть построены пандами в дополнение к точечной диаграмме и гистограмме, включая гистограммы, блочные диаграммы, диаграммы плотности, диаграммы площадей, диаграммы шестигранников и круговые диаграммы.

Код для этого поста можно найти в моей личной учетной записи Kaggle, ссылка здесь: https://www.kaggle.com/tracyporter/stanford-u-machine-learning-course?scriptVersionId=74340657.