Опыт специалиста по данным с использованием Pandas DataFrame Agent Toolkit из библиотеки LangChain

Я не могу не быть поражен всем новым программным обеспечением и библиотеками ИИ, которые выходят через день.

Кажется, что все можно решить с помощью волшебного прикосновения ChatGPT, Midjourney и миллиона других инструментов, основанных на больших языковых моделях.

Помните, сколько времени у нас ушло от использования MatLab до Theano, TensorFlow и PyTorch?

Попрощайтесь с нормальной скоростью. Теперь, как нам ускорить нашу работу, не требуя больше времени с нашей стороны?

Мы можем использовать правильные инструменты вместо того, чтобы чувствовать FOMO по этому поводу. Но мы должны использовать их с осторожностью.

Инструмент, который я хотел бы показать вам в этой статье, — это набор инструментов Pandas DataFrame Agent Toolkit из библиотеки LangChain.

Это похоже на то, как если бы вы отдали свой исследовательский анализ данных на аутсорсинг помощнику. Вы задаете вопросы, связанные с фреймворком данных, и он возвращает вам ответы.

В частности, он находит правильный код в библиотеке Pandas, выполняет его и показывает ход своих мыслей при выработке решения.

Больше не нужно тратить время на гугление или изучение документации в поисках нужных фрагментов кода. Это сделано для вас.

Давайте погрузимся прямо в действие. Посмотрите, как это делается и как с его помощью можно сэкономить время.

Этот проект создан в сотрудничестве с Дэйвом Эббеларом. Дэйв создает полезный видеоконтент для профессионалов в области данных, энтузиастов ИИ и владельцев бизнеса, чтобы они могли применять ИИ в своей работе. Посмотрите видеоверсию этой статьи и возьмите оттуда код.

Подготовка вещей

Убедитесь, что у вас есть ключ API OpenAI, он понадобится нам для этого руководства. В противном случае зарегистрируйтесь и создайте ключ здесь.

Мы также собираемся использовать Serp API для выполнения поиска Google с помощью LangChain. Этот шаг не является обязательным, но вам понадобится ключ, если вы хотите полностью следовать руководству. Создайте аккаунт здесь.

Создайте виртуальную среду с Python версии 3.9 или выше. Это необходимо для использования набора инструментов Pandas DataFrame.