Автор: Dr. Джон Кейн, вице-президент по обработке сигналов и обработке данных в Cogito

Было что-то особенное в перспективе проведения в Стокгольме Interspeech 2017, » самой заметной конференции года в области науки и технологий. Возможно, из-за его богатой истории речевой науки, в том числе из-за того, что он был домом для великих исследователей, таких как покойный «Гуннар Фант, », который отвечал за новаторские работы по акустике производства речи и синтеза речи. По прибытии на конференцию в Стокгольмском университете особенность была очевидна, так как церемония открытия проходила во впечатляющем с точки зрения архитектуры здании Aula Magna, где робот «FurHat доставлял аудитории логистическую информацию о конференции. Затем последовали захватывающие четырехдневные доклады о речи и обработке речи, которые открыли окно в новейшие инновации в области голоса, эмоций и речевых технологий. Хотите узнать больше? Ознакомьтесь с главными темами межречевой конференции этого года ниже.

Рис. 1. Гигантский язык приветствует слушателей университета

Рис. 2. Робот FurHat, весело доставляющий логистическую информацию аудитории

Крупные игроки обращают внимание

Прошло три года с тех пор, как я последний раз был в Interspeech, поэтому я сразу заметил, как резко возросло присутствие крупных коммерческих организаций. Google, Amazon, Apple и многие другие были явно видны при входе на площадку. Речевые технологии - горячая тема, поскольку в последнее время в основных речевых технологиях резко возросла точность, что привело к появлению широкого спектра продуктов, а ведущие исследователи речи пользуются большим спросом у многих компаний. Каждая из представленных более крупных компаний провела свои отдельные вечерние мероприятия, чтобы привлечь исследователей к конференции.

Рис. 3. Вечернее мероприятие Google

Срок погашения ASR, TTS по другим направлениям

Одним из последствий большого коммерческого интереса к речевым технологиям стало то, что основные области достигли уровня продвинутой научной зрелости. В презентациях по автоматическому распознаванию речи (ASR) и синтезу текста в речь (TTS), помимо значительно улучшенных результатов по сравнению с тем, что было три года назад, было гораздо больше стандартизации экспериментов и оценок, а также более крупные и подходящие наборы данных, чем в более новых областях например, распознавание эмоций.

WaveNet как новая парадигма синтеза речи

Подход WaveNet к синтезу речи и звука был представлен Google в прошлом году, когда вместо генерации параметрических описаний речи или склеивания единиц речи фактическая форма звуковой волны напрямую генерируется глубинной моделью нейронной сети. Статус WaveNet как новой парадигмы синтеза речи был еще больше укреплен во время их лекций в большом зале Aula Magna. Несмотря на впечатляющий прототип, естественность синтеза Google, продемонстрированная в прошлом году, все еще трудно превзойти.

Использование контекста для улучшения распознавания эмоциональной валентности

Во время мероприятия было проведено немало презентаций на тему распознавания эмоций, что продемонстрировало повышенный интерес к этой сфере. Одним из обсуждаемых вопросов была проблема эффективного различения положительных и отрицательных эмоций по голосу. В то же время исследования с использованием более крупных контекстов, сочетающих вложения слов лексических данных, являются многообещающим путем, приводящим к реальным улучшениям.

Проблема с данными

Проблема наличия и доступа к данным была постоянной темой, обсуждаемой во время сессий и кофе-брейков. Академическим исследовательским группам, в частности, трудно конкурировать с крупными коммерческими командами из-за доступности данных и того факта, что современные подходы требуют больших подходящих наборов данных для эффективной работы.

Нейронные сети для всего

Если в этом есть какие-либо сомнения, глубокие нейронные сети (DNN) оказались самым современным подходом к моделированию практически во всех областях речевых технологий. Однако есть существенные различия в том, как люди их используют. Некоторые исследователи просто применили стандартные рецепты DNN к своей проблеме, тогда как другие представили эксперименты со сложными архитектурами моделирования, которые подходят для поставленной задачи. Для этой последней группы кажется, что сама дисциплина теперь представляет собой «глубокие нейронные сети», а не просто подход.

Роботы в разных точках кривой "Страшной долины"

Наконец, было трудно не заметить количество роботов вокруг места проведения. Кто-то смотрел, когда вы проходили мимо, другие пытались завязать разговор, а один, MiRo - первый в мире коммерческий биометрический робот (см. Рис. 4 ниже), умолял вас погладить его, чтобы улучшить его настроение. Эти роботы, безусловно, интересны с научной точки зрения, но их коммерческое применение (по крайней мере для меня) все еще не определено.

Рис. 4. Первый в мире коммерческий биометрический робот

Что дальше?

Очевидно, что основные области речевых технологий, такие как автоматическое распознавание речи и синтез текста в речь, достигли впечатляющего уровня зрелости, но остаются серьезные нерешенные вопросы о том, как использовать «голосовой интерфейс» для создания пользовательского опыта, который фактически решает важные проблемы для люди. Когнитивная и поведенческая наука по-прежнему играет важную роль в проектировании и разработке действительно эффективных сценариев взаимодействия человека с компьютером. Кроме того, вполне вероятно, что обработка аффекта и эмоций с помощью голоса будет продолжать набирать обороты, и с этим повышенным вниманием сложные препятствия, такие как четкое распознавание валентности (т.е. положительные и отрицательные эмоции), в конечном итоге будут преодолены. Однако такие достижения будут зависеть от сбора больших, хорошо аннотированных наборов аудиоданных - чего явно не хватает в этом подполе прямо сейчас. Тогда задача будет заключаться в объединении этих все более точных возможностей зондирования для улучшения и улучшения человеческого опыта как в рабочих, так и в личных сценариях.