Добро пожаловать в учебник Pandas для новичков, которые плохо знакомы с интересным инструментом, которым является Pandas. Панды - мой любимый инструмент для работы с данными. Если вы хотите изменить свои данные и хотите выполнить некоторые операции с данными, тогда Pandas - интересный инструмент для этого. Начнем с панд.
Что такое панды?
В области науки о данных есть много инструментов, которые вам следует знать, например, Pandas, Numpy, Matplotlib, Seaborn и т. Д. Таким образом, Pandas - очень полезный инструмент в области Data Science, где мы постоянно работаем с данными.
Pandas - это быстрый, мощный, гибкий и простой в использовании инструмент для анализа и обработки данных с открытым исходным кодом, созданный на основе языка программирования Python. Pandas - это инструмент для обработки данных высокого уровня. Pandas - самая популярная библиотека python, которая используется для анализа данных.
Структуры данных в Pandas?
В Pandas есть две основные структуры данных, т.е. Series и DataFrame.
- Серии - это тип списка в пандах, который может принимать целочисленные, строковые, двойные и другие значения. Серия может содержать только один список с индексом.
- DataFrame - это двумерная потенциально неоднородная табличная структура данных с изменяемым размером, с помеченными осями (строками и столбцами). Фрейм данных - это двухмерная структура данных. DataFrame может состоять из нескольких серий, или мы можем сказать, что dataframe - это набор серий, которые можно использовать для анализа данных.
Используя Pandas, мы можем анализировать данные, которые доступны в табличном формате, например. данные из файлов excel, csv, txt и т. д.
Как установить Pandas:
Используя pip:
pip install pandas
Как импортировать панд:
импортировать панд как pd
Создание серий в пандах разными способами:
- Использование массива Numpy:
2. Используя простой список:
3. Использование словаря:
Доступ к элементам серии:
- Использование позиции в серии:
2. Доступ к элементу с помощью метки (индекс):
Добавление двух серий:
Различные способы создания Dataframe в Pandas:
У Pandas есть конструктор DataFrame, который мы вызываем для создания фрейма данных.
- Используя список:
2. Использование словаря:
3. Использование списка словарей:
4. Используя список списков:
Присвоение имени пользовательского индекса фрейму данных:
Преобразование существующего индекса в столбец:
В предыдущем коде у нас есть index как index1 и index2. Теперь мы конвертируем индекс в столбец с помощью reset_index ()
Создание одного столбца в качестве индекса в фрейме данных:
Здесь мы делаем один столбец фрейма данных в качестве индекса, используя set_index ()
Чтение CSV-файла в Pandas:
Здесь мы читаем CSV-файл с помощью read_csv (), чтобы мы могли получить его во фрейме данных pandas.
Переименование столбца:
Здесь столбцы «имя» и «оценка» переименованы в «ИМЯ» и «ОЦЕНКА» соответственно.
Переименование всех имен столбцов фрейма данных:
Здесь мы передаем все столбцы фрейма данных для одновременного переименования всех имен столбцов.
Сделать столбец индексом фрейма данных:
Распечатать всю статистику фрейма данных:
Здесь вся статистическая информация всех столбцов в фрейме данных:
Доступ к элементам фрейма данных с помощью loc [] и iloc []:
- loc []: loc [] требуется точное имя индекса для выборки строк и точное имя столбца для выборки столбцов фрейма данных. Когда мы передаем диапазон индексов через loc [], он включает последний элемент диапазона, т.е. это инклюзивный
2. iloc []: iloc [] требуется целое число для выборки строк или столбцов фрейма данных. Когда мы передаем диапазон целых чисел через iloc [], он не включает последний элемент, т.е. это эксклюзивно.
Получение данных из фрейма данных с использованием маскирования:
Мы используем msking для получения данных из фрейма данных в зависимости от определенного условия.
Удалить определенные строки из фрейма данных:
Работа со столбцами фрейма данных:
1. Получение определенных столбцов из фрейма данных:
2. Добавление нового столбца в фрейм данных:
3. Удаление определенного столбца из фрейма данных:
Мы можем удалить столбец из фрейма данных с помощью drop ().
Проверка нулевых значений в фрейме данных:
Здесь мы используем функцию isnull () для проверки нулевых значений в кадре данных.
Заполнение пустых значений в кадре данных:
мы используем метод fillna () для заполнения нулевых значений в фрейме данных. Существуют разные способы заполнения пустых значений в фрейме данных.
- Заполнение всех нулевых значений 0.
- Заполнение всех нулевых значений предыдущими значениями в столбце.
- Заполнение всех нулевых значений прямыми значениями в столбце.
- Заполнение всех нулевых значений методом интерполяции.
Удаление нулевых значений:
- Удалить строки с нулевыми значениями
- Удалить столбцы с нулевыми значениями
- Чтобы внести изменения после любой операции в исходном фрейме данных, постоянно используйте inplace = True
- Мы можем использовать другой фрейм данных для хранения изменений в исходном фрейме данных.
Ссылки:
- Https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html
- Https://pandas.pydata.org/pandas-docs/version/0.15/tutorials.html
Это все. В этом блоге я рассказал об основных операциях в Pandas. Во второй части этого блога будут рассмотрены другие операции в Pandas. Надеюсь, вам всем понравится этот блог. Дайте аплодисменты, если вам нравится этот блог. Спасибо за чтение.
Продолжайте читать. Продолжайте учиться.