Занимаетесь ли вы машинным обучением или наукой о данных, велика вероятность, что вы столкнулись с библиотекой Pandas — важным инструментом для работы с файлами CSV или JSON. Тем не менее, истинная проблема часто заключается в тщательном процессе очистки данных перед дальнейшим анализом.

Что, если бы ИИ мог сделать это за вас?

Что ж, не ищите дальше, потому что уже здесь совершенно новая версия PandasAIверсия 1.0.3, которая использует Gen AI для очистки ваших данных, позволяет вам общаться с вашими данные как помощник и даже рисует потрясающие графики за считанные секунды.

«PandasAI — это библиотека Python, которая добавляет возможности генеративного искусственного интеллекта в pandas, популярный инструмент анализа и манипулирования данными. Он предназначен для использования совместно с пандами и не является его заменой. «

Предпосылки ✅

  • API-ключ OpenAI

Краткий пример:

Этот пример был взят из оригинальной документации PandasAI. Это довольно просто, но очень интересно.

Вы начинаете с импорта базовой библиотеки Pandas вместе с библиотекой PandasAI. Если у вас не установлен PandasAI, попробуйте:

! pip install pandasai

Теперь продолжим импортировать openAI, API которого мы будем использовать для доступа к помощнику или для общения. Импортируйте SmartDatalake и создайте объект озера данных, который будет использоваться для хранения и запроса данных.

import pandas as pd
from pandasai import SmartDatalake
from pandasai.llm import OpenAI

employees_data = {
    'EmployeeID': [1, 2, 3, 4, 5],
    'Name': ['John', 'Emma', 'Liam', 'Olivia', 'William'],
    'Department': ['HR', 'Sales', 'IT', 'Marketing', 'Finance']
}

salaries_data = {
    'EmployeeID': [1, 2, 3, 4, 5],
    'Salary': [5000, 6000, 4500, 7000, 5500]
}

employees_df = pd.DataFrame(employees_data)
salaries_df = pd.DataFrame(salaries_data)


llm = OpenAI('YOUR API KEY')
dl = SmartDatalake([employees_df, salaries_df], config={"llm": llm})
dl.chat("Who gets paid the most?")
Oh, Olivia gets paid the most.

Вот несколько ярлыков, которые вы можете попробовать с вашими данными:

# Clean data
df.clean_data()

# Impute missing values
df.impute_missing_values()

# Generate features
df.generate_features()

# Plot histogram
df.plot_histogram(column="gdp")

Ресурсы для вас

Ознакомьтесь с официальной документацией: https://pypi.org/project/pandasai/

Краткое содержание

PandasAI — это мощный инструмент, который можно использовать с библиотекой pandas для достижения лучших результатов с данными, уменьшая трудности с их очисткой и обработкой.