Благодаря последним улучшениям в технологии машинного обучения, особенно генеративным алгоритмам и большим языковым моделям, все больше и больше приложений для конференц-связи добавляют эти возможности в свои предложения.

Эту технологию машинного обучения можно применять к приложениям для конференц-связи на двух разных уровнях: уровень инфраструктуры с улучшениями в обработке и передаче мультимедиа и уровень приложения с новыми функциями или возможностями для пользователи.

На уровне инфраструктуры (кодеки, шумоподавление и т. д.) большинство идей высокого уровня были освещены в этом другом посте. Некоторыми интересными недавними достижениями являются применение кодеков машинного обучения для резервирования звука, а следующий рубеж — применение генеративных алгоритмов также к видео, а также общие приложения к фотореалистичным аватарам.

Этот пост посвящен второму уровню (часть приложения) и тому, как реализовать типичные функции, такие как суммирование, создание изображений или модерация. Идея состоит в том, чтобы представить эталонную архитектуру, которую можно использовать для реализации этих сервисов.

Представленная ниже архитектура основана на двух основных идеях:

  1. Система разделена на три разные подсистемы, которые имеют разные шаблоны выполнения:
  • Одна подсистема по запросу, которую приложение может использовать для запроса определенных возможностей, когда это необходимо.
  • Одна автономная подсистема, которая обрабатывает файлы, события и записи в фоновом режиме для улучшения, фильтрации или извлечения соответствующей информации. Эта система имеет традиционное хранилище в качестве серверной части (например, AWS S3).
  • Единая онлайн-подсистема, которая обрабатывает все коммуникационные события (обмен сообщениями, сигнализация, обмен сообщениями) практически в режиме реального времени для принятия решений, извлечения информации или улучшения этих событий. Эта система имеет потоковую очередь в качестве серверной части (например, Apache Kafka).

2. Все алгоритмы машинного обучения доступны через API/шлюз, чтобы абстрагироваться от деталей реализации и интерфейса с размещенными моделями и внешними поставщиками.

Вот некоторые типичные функции этой архитектуры и то, как они могут быть реализованы:

  • Генерация мультимедиа (изображения, музыка, мемы…) может быть запрошена приложением по запросу пользователя или автоматически, когда это необходимо приложению.
  • Улучшенные записи, например, с типичными алгоритмами сверхвысокого разрешения, могут быть созданы фоновым процессом постобработки, запускаемым каждый раз, когда в сегменте хранилища создается новая запись.
  • Извлечение соответствующих полей из беседы в режиме реального времени (например, элементов действий) может быть реализовано с помощью процесса, который считывает подписи из очереди, группирует их в блоки по темам или выступающим, а затем отправляет эти фрагменты в AI Gateway. Эта информация может быть возвращена в очередь, чтобы другие процессы или приложение могли ее использовать.

Этот пост выражает мое личное мнение. Обратная связь приветствуется как здесь, так и в Твиттере.