Занимаетесь ли вы машинным обучением или наукой о данных, велика вероятность, что вы столкнулись с библиотекой Pandas — важным инструментом для работы с файлами CSV или JSON. Тем не менее, истинная проблема часто заключается в тщательном процессе очистки данных перед дальнейшим анализом.
Что, если бы ИИ мог сделать это за вас?
Что ж, не ищите дальше, потому что уже здесь совершенно новая версия PandasAI — версия 1.0.3, которая использует Gen AI для очистки ваших данных, позволяет вам общаться с вашими данные как помощник и даже рисует потрясающие графики за считанные секунды.
«PandasAI — это библиотека Python, которая добавляет возможности генеративного искусственного интеллекта в pandas, популярный инструмент анализа и манипулирования данными. Он предназначен для использования совместно с пандами и не является его заменой. «
Предпосылки ✅
- API-ключ OpenAI
Краткий пример:
Этот пример был взят из оригинальной документации PandasAI. Это довольно просто, но очень интересно.
Вы начинаете с импорта базовой библиотеки Pandas вместе с библиотекой PandasAI. Если у вас не установлен PandasAI, попробуйте:
! pip install pandasai
Теперь продолжим импортировать openAI, API которого мы будем использовать для доступа к помощнику или для общения. Импортируйте SmartDatalake и создайте объект озера данных, который будет использоваться для хранения и запроса данных.
import pandas as pd from pandasai import SmartDatalake from pandasai.llm import OpenAI employees_data = { 'EmployeeID': [1, 2, 3, 4, 5], 'Name': ['John', 'Emma', 'Liam', 'Olivia', 'William'], 'Department': ['HR', 'Sales', 'IT', 'Marketing', 'Finance'] } salaries_data = { 'EmployeeID': [1, 2, 3, 4, 5], 'Salary': [5000, 6000, 4500, 7000, 5500] } employees_df = pd.DataFrame(employees_data) salaries_df = pd.DataFrame(salaries_data) llm = OpenAI('YOUR API KEY') dl = SmartDatalake([employees_df, salaries_df], config={"llm": llm}) dl.chat("Who gets paid the most?") Oh, Olivia gets paid the most.
Вот несколько ярлыков, которые вы можете попробовать с вашими данными:
# Clean data df.clean_data() # Impute missing values df.impute_missing_values() # Generate features df.generate_features() # Plot histogram df.plot_histogram(column="gdp")
Ресурсы для вас
Ознакомьтесь с официальной документацией: https://pypi.org/project/pandasai/
Краткое содержание
PandasAI — это мощный инструмент, который можно использовать с библиотекой pandas для достижения лучших результатов с данными, уменьшая трудности с их очисткой и обработкой.