Тонкая настройка больших языковых моделей с помощью FELT Labs

Точная настройка LLMS с помощью FELT Labs с использованием технологии протокола Ocean менее чем за 8 долларов США.

Благодаря захватывающим обновлениям от FELT Labs теперь вы можете точно настраивать большие языковые модели (LLM) для своих личных данных, используя наши алгоритмы, без необходимости настраивать собственную архитектуру. Для этого мы будем использовать технологию протокола Ocean и полигональный блокчейн. FELT Labs предоставляет все необходимые инструменты для тонкой настройки; вам нужно только подготовить свои данные и оплатить время расчета.

Есть ли у вашего проекта особая потребность в тонкой настройке LLM? Свяжитесь с нами по адресу [email protected], и наша команда поможет вам в этом!

Все материалы (набор данных, алгоритм, файл докера и т. д.), использованные в этом руководстве, опубликованы в следующем репозитории GitHub:

GitHub — FELT-Labs/llm-finetuning: Алгоритмы и инструкции по тонкой настройке LLM с помощью FELT Labs
Алгоритмы и инструкции по тонкой настройке LLM с помощью FELT Labs — GitHub — FELT-Labs/ llm-finetuning: Алгоритмы и…github.com

Почему задействован блокчейн?

Ocean Protocol создает экосистему для безопасной монетизации ваших данных. FELT Labs создает инструменты для обработки данных на основе этого рынка данных. Таким образом, вы можете не только точно настроить LLM на своих данных, но и получить прибыль от других, использующих ваши данные для точной настройки своих моделей. Все это можно сделать, не раскрывая свои данные. Таким образом, владельцы данных могут получать справедливую компенсацию за использование своих данных для обучения моделей ИИ.

Руководство по тонкой настройке

Следующее руководство проведет вас через все этапы подготовки набора данных, тонкой настройки модели и ее использования для логического вывода. Поскольку для нашего решения требуется технология блокчейна, есть некоторые необходимые предварительные условия, чтобы вы могли оплатить вычисления. Выполнение предварительных требований может быть сложным для тех, кто впервые использует блокчейн, но как только вы их выполните, остальная часть руководства пройдет гладко.

1. Предпосылки

Мы будем использовать Polygon Mainnet. Поэтому у вас должен быть свой кошелек (в настоящее время мы поддерживаем MetaMask или WalletConnect). В кошельке у вас должна быть валюта MATIC для оплаты комиссии за газ (должно быть достаточно 1 MATIC). Кроме того, у вас должен быть токен USDC для оплаты вычислений. Вам нужно около 7,2 долларов США для одного запуска тонкой настройки.

Есть много возможных способов получить эти два токена; вы можете использовать криптобиржи или какое-то внутреннее решение. Не стесняйтесь спрашивать в комментариях подробности (возможно, я напишу для этого отдельный урок).

Чтобы перейти к следующим шагам, у вас должен быть кошелек со следующими активами:

МАТИК: 1+
USDC: 7,2+

2. Подготовка набора данных

Далее вам нужно будет подготовить данные. Это самый важный шаг всего урока. Данные должны быть в формате JSON и выглядеть следующим образом:

[
{"text": "### Question: What is FELT Labs? ### Response: FELT Labs is data science company developing tools for working with distributed data."},
{"text": "### Question: What is Ocean protocol? ### Response: ..."},
{"text": "### Question: ...### Response: "}
]

Несколько вещей, на которые стоит обратить внимание:

На данный момент мы используем точную настройку для данных ответов на вопросы. Ваши данные должны содержать ## Question: … и ### Response: …part (мы также добавим поддержку других задач)
Файл JSON содержит список объектов только с одним ключом "text", за которым следует строка, представляющая ожидаемый текст.
Файл JSON может содержать столько обучающих объектов, сколько необходимо.

Как только ваш файл будет готов, вы должны опубликовать его по протоколу Ocean. Есть разные способы публиковать активы на протоколе Ocean, но здесь я опишу самый простой. Для получения более подробной информации посетите раздел Документация Ocean.

Мы опубликуем набор данных, используя URL-адрес файла. Для этого вам нужен уникальный URL-адрес, указывающий на ваш файл. Мы опубликуем файл в репозитории GitHub и получим необработанный URL-адрес файла, как показано ниже:

https://raw.githubusercontent.com/FELT-Labs/llm-finetuning/main/dataset.json

Как только URL-адрес будет готов, мы можем опубликовать новый актив на торговой площадке Ocean.

Торговая площадка открытого океана: https://market.oceanprotocol.com/publish/1. Подключите свой кошелек в правом верхнем углу и используйте сеть Polygon Mainnet.
На первой странице необходимо выбрать dataset и заполнить остальные поля по своему усмотрению.
На второй странице важно установить следующее:
- Тип доступа: Compute
- URL провайдера: https://provider. Feltlabs.ai/
— Файл: https://raw.githubusercontent.com/FELT-Labs/llm-finetuning/main/dataset.json
— Время ожидания: можно установить по своему усмотрению (оно показывает, как долго после покупки набор данных будет доступен пользователю для вычислений)
В разделе цены выберите желаемую цену. Я увижу это до free для простоты
Наконец, проверьте предварительный просмотр и нажмите «Отправить»!

Когда ваш набор данных будет готов, у вас должен быть уникальный адрес для его просмотра. В нашем случае это выглядит так:

https://market.oceanprotocol.com/asset/did:op:5c9d720a92461f9f5019f1e485efb396e55d7426068a7513978e73cb2aadd026

3. Запуск тонкой настройки

Теперь начинается самое интересное, запуск тренировки! Первый шаг — перейти по адресу: https://app.feltlabs.ai/learning/single. В правом верхнем углу убедитесь, что вы сначала нажимаете Подключить кошелек, а затем кнопку Войти. Убедитесь, что ваш кошелек подключен к правильной сети, Mumbai Mainnet. Это понадобится вам для хранения информации о начатом обучении и доступа к ней позже.

После входа в систему начните с заполнения названия вашей учебной работы (название просто для справки). Затем найдите ранее опубликованный набор данных; в случае с этим руководством мы будем искать набор данных «LLM Fine-tuning tutorial dataset» и выберем его для обучения. На следующем шаге вы выберете алгоритм LLM.

Наконец, вы можете выбрать некоторые гиперпараметры обучения. Наиболее важными являются этапы обучения. Для больших объемов данных вам потребуется больше шагов обучения. Большее количество тренировочных шагов также означает более длительное время обучения. Максимальное количество в настоящее время ограничено 500 из-за ограничений по времени вычислений.

Когда вы закончите, нажмите отправить. Появится модальное окно, которое поможет вам начать вычисления. Если вы запускаете вычисление через браузер, вам нужно пройти следующие шаги:

Набор данных о покупке (утверждение + транзакция покупки)
Алгоритм покупки (одобрение + транзакция покупки)
Подпишите вычисление, чтобы начать

4. Использование модели для вывода

Чтобы следить за ходом расчета, перейдите по ссылке: https://app.feltlabs.ai/jobs.

Вы должны увидеть название и ход выполнения задания, которое вы начали на предыдущем шаге. Когда закончите, пришло время протестировать нашу модель. Мы уже подготовили блокнот для тестирования модели и выполнения логического вывода. Блокнот можно найти здесь:

https://colab.research.google.com/github/FELT-Labs/llm-finetuning/blob/main/inference.ipynb

Чтобы запустить блокнот, необходимо выбрать время выполнения GPU в соавторе. Затем вам нужно будет выполнить команду загрузки для вашей модели. Команду можно получить, нажав кнопку скачать модель рядом с завершенным расчетным заданием. Вставьте эту команду в блокнот в соответствующее место. Не забудьте поставить восклицательный знак (!) в начале команды. Затем вы можете продолжить и запустить блокнот. Чтобы ввести подсказку, перейдите в раздел вывода и измените переменную input_text.

Оценка

Для нашей модели мы используем следующую подсказку ввода ### Question: What can you tell me about FELT Labs? ### Response:. Эта подсказка не включена напрямую в наш набор данных. Поэтому интересно посмотреть, как точно настроенная модель работает по сравнению с исходной моделью.

Точная настройка модели: «FELT Labs – это компания, занимающаяся анализом данных, которая предоставляет набор инструментов для работы с частными и распределенными данными. Мы сосредоточены на федеративном обучении, которое позволяет вам обучать модели машинного обучения или выполнять анализ данных в нескольких наборах данных, в то время как…»

Исходный ответ модели: «FELT Labs помогает компаниям и организациям перейти в 21 век с помощью современного программного обеспечения для увеличения доходов, оптимизации взаимодействия с клиентами и повышения эффективности цифрового маркетинга. Это еще не все, что означает «FELT Labs»…

Как мы видим, точно настроенная модель дает ответ, близкий к тому, что у нас есть в нашем наборе данных, по сравнению с исходной моделью, которая дает очень общий ответ.

Заключение

Тонкая настройка LLM — захватывающая область. Определенно сложно настроить весь процесс, включая инфраструктуру обучения. В FELT Labs мы рады нашему прогрессу в этой области, поскольку он открывает много новых возможностей. В настоящее время алгоритм тонкой настройки ограничен одним типом данных и моделью. Однако расширение алгоритма для других моделей и наборов данных теперь относительно просто, когда у нас есть инфраструктура.

ПИСАТЕЛЬ на MLearning.ai / Режиссер AI Movie /Imagine AI 3D Models

Предложения по подаче заявок на Mlearning.ai
Как стать писателем на Mlearning.aimedium.com

Тонкая настройка больших языковых моделей с помощью FELT Labs — Полное руководство