MLAGA — Генератор многоязычных аудиокниг

Демонстрация простоты и полезности современных API ИИ

MLAGA — это генератор многоязычных аудиокниг с открытым исходным кодом, созданный для демонстрации возможностей и простоты интеграции API-интерфейсов ИИ в ваши продукты.

MLAGA конвертирует видео с YouTube в многоязычные аудиокниги. Изучайте язык на ходу, продолжая потреблять контент, который вам нравится.

API машинного обучения играют все большую роль в развертывании продуктов с поддержкой машинного обучения. На это есть несколько очевидных причин

«Большие технологии» имеют доступ к экспоненциально большим ресурсам машинного обучения (вычисления, инженеры и данные). Небольшие компании не могут конкурировать в создании дорогих крупных моделей общего назначения (GPLM). Масштабирование является обязательным условием при построении моделей такого типа.
Многие архитектуры машинного обучения построены в облаке (AWS, GCP, Azure). Поскольку GPLMразрабатываются одними и теми же компаниями, они спроектированы так, чтобы легко интегрироваться в облачные архитектуры.
Простота доступа к API-интерфейсам моделей обеспечивает гораздо более широкое внедрение — для запуска не требуется никаких знаний в области машинного обучения.
ML API действительно работают. Всего несколько лет назад большинство моделей общего назначения были хрупкими и непрактичными, что оказывалось ненадежным в производстве. Качество этих моделей значительно улучшилось.

Выгода для всех

Из этого следует, что большая часть экосистем опирается на API ML.

Продукты/команды, не связанные с ML, могут добавить функциональность ML, интегрировав соответствующие SDK.
Продукты/команды машинного обучения могут использоватьGPLMдля аутсорсинга (компонента) модели или в качестве отправной точки (передача обучения и т. д.) при создании пользовательской модели.

Чтобы продемонстрировать мощь и простоту использования этих API, я создал MLAGA.

MLAGA конвертирует видео с YouTube в многоязычные аудиокниги. Изучайте язык на ходу, продолжая потреблять контент, который вам нравится.

Начиная

Настройте свою учетную запись AWS в соответствии со спецификацией в разделе Начало работы в репозитории MLAGA README.md.

Этап 1. YouTube to Audio (s3) локально с помощью встроенного интерфейса командной строки. Использование:

arguments:
  exe:          '.FLAC'           # -e:   The desired audio file extention.
  yt_url:       'youtube url'     # -y:   YouTube video URL.
  bucket_name:  's3-bucket'       # -b:   S3 bucket location to store audiofile.
  path:         './temp_store'    # -p:   Path to (temperarily) save audio file.
  cached_audio:                   # -c:   If used, use file that is already downloaded in path.

Этап 2. Транскрипция аудио и сцена 3. Перевод и TTS будут запущены автоматически, если этап 1 завершится успешно.

Аудиофайлы (оригинальные и переведенные) будут доступны в сегменте s3.

Пример использования

Учитывая URL-адрес видео на YouTube: https://youtube.com/shorts/y3gMoSopy8I

Просто запустите:

clear; python stage_01.py \
    -y "https://www.youtube.com/shorts/y3gMoSopy8I" \
    -e ".FLAC" \
    -b $[S3/BUCKET-1] \
    -p "./input"

Выход

Конвейер будет запущен автоматически, по завершению 4 файла будут записаны в $[S3/BUCKET-3] (пример вывода доступно здесь).

Транскрипция английского текста.
Транскрипция французского текста.
Английский аудио (синтез речи).
Французское аудио (синтез речи).

Вуаля! Vous disposez d'un générateur de livres audio multilingues! 🎉🎉🎉

Гитхаб

Полная реализация доступна здесь.