Демонстрация простоты и полезности современных API ИИ
MLAGA — это генератор многоязычных аудиокниг с открытым исходным кодом, созданный для демонстрации возможностей и простоты интеграции API-интерфейсов ИИ в ваши продукты.
MLAGA конвертирует видео с YouTube в многоязычные аудиокниги. Изучайте язык на ходу, продолжая потреблять контент, который вам нравится.
API машинного обучения играют все большую роль в развертывании продуктов с поддержкой машинного обучения. На это есть несколько очевидных причин
- «Большие технологии» имеют доступ к экспоненциально большим ресурсам машинного обучения (вычисления, инженеры и данные). Небольшие компании не могут конкурировать в создании дорогих крупных моделей общего назначения (GPLM). Масштабирование является обязательным условием при построении моделей такого типа.
- Многие архитектуры машинного обучения построены в облаке (AWS, GCP, Azure). Поскольку GPLMразрабатываются одними и теми же компаниями, они спроектированы так, чтобы легко интегрироваться в облачные архитектуры.
- Простота доступа к API-интерфейсам моделей обеспечивает гораздо более широкое внедрение — для запуска не требуется никаких знаний в области машинного обучения.
- ML API действительно работают. Всего несколько лет назад большинство моделей общего назначения были хрупкими и непрактичными, что оказывалось ненадежным в производстве. Качество этих моделей значительно улучшилось.
Выгода для всех
Из этого следует, что большая часть экосистем опирается на API ML.
- Продукты/команды, не связанные с ML, могут добавить функциональность ML, интегрировав соответствующие SDK.
- Продукты/команды машинного обучения могут использоватьGPLMдля аутсорсинга (компонента) модели или в качестве отправной точки (передача обучения и т. д.) при создании пользовательской модели.
Чтобы продемонстрировать мощь и простоту использования этих API, я создал MLAGA.
MLAGA конвертирует видео с YouTube в многоязычные аудиокниги. Изучайте язык на ходу, продолжая потреблять контент, который вам нравится.
Начиная
Настройте свою учетную запись AWS в соответствии со спецификацией в разделе Начало работы в репозитории MLAGA README.md.
Этап 1. YouTube to Audio (s3) локально с помощью встроенного интерфейса командной строки. Использование:
arguments: exe: '.FLAC' # -e: The desired audio file extention. yt_url: 'youtube url' # -y: YouTube video URL. bucket_name: 's3-bucket' # -b: S3 bucket location to store audiofile. path: './temp_store' # -p: Path to (temperarily) save audio file. cached_audio: # -c: If used, use file that is already downloaded in path.
Этап 2. Транскрипция аудио и сцена 3. Перевод и TTS будут запущены автоматически, если этап 1 завершится успешно.
Аудиофайлы (оригинальные и переведенные) будут доступны в сегменте s3.
Пример использования
Учитывая URL-адрес видео на YouTube: https://youtube.com/shorts/y3gMoSopy8I
Просто запустите:
clear; python stage_01.py \ -y "https://www.youtube.com/shorts/y3gMoSopy8I" \ -e ".FLAC" \ -b $[S3/BUCKET-1] \ -p "./input"
Выход
Конвейер будет запущен автоматически, по завершению 4 файла будут записаны в $[S3/BUCKET-3]
(пример вывода доступно здесь).
- Транскрипция английского текста.
- Транскрипция французского текста.
- Английский аудио (синтез речи).
- Французское аудио (синтез речи).
Вуаля! Vous disposez d'un générateur de livres audio multilingues! 🎉🎉🎉
Гитхаб
Полная реализация доступна здесь.