Низкая точность преобразования речи в текст Watson с пользовательской моделью

Служба диалогов Watson не распознала мой акцент. Поэтому я использовал пользовательскую модель, и вот результаты до и после использования пользовательской модели.

Результаты тестирования

Перед интеграцией модели :- Когда у вас есть девиз, который есть у них в. Шейла. Джабба среди. Женщина. .

После интеграции модели :- Мы отдаем Оматту Дэвиду. Шри-Ланка. Джабба среди. Количество. губернатор

Фактическое аудио – Аудио 49 ,Виджаяба Мавата,Калюбовила,Дехивела,Шри-Ланка.Правительство.Гов.

Как я включил пользовательскую модель: я использовал тот же файл, что и в демо разветвлено из github В socket.js я включил идентификатор настройки, как показано на рисунке. Там, где другие способы включения пользовательской модели (способы интеграции пользовательской модели), но я хотел бы знать, правильный ли метод, который я сделал?

Вот код Python, который я использовал для создания пользовательской модели.ссылка на код

Вот результат корпуса, который я получил после выполнения кода Python в формате JSON. файл корпуса

Вот пользовательская модель(текстовый файл пользовательской модели, который был включен в код), где Я включил все дороги Шри-Ланки.

Я разветвил файл и отредактировал socket.js следующим образом.


person Athif Shaffy    schedule 28.12.2016    source источник
comment
Вам необходимо предоставить полный код, который вы используете, а не снимок экрана.   -  person Nikolay Shmyrev    schedule 31.12.2016
comment
@NikolayShmyrev Я дал ссылку на код. Я развил его из URL link и только отредактировал файл socket.js, включив пользовательскую модель, как показано на снимке экрана.   -  person Athif Shaffy    schedule 01.01.2017
comment
@NikolayShmyrev Файл socket.js находится внутри src *   -  person Athif Shaffy    schedule 01.01.2017
comment
Пока нет подробностей, какие слова вы добавили в пользовательскую модель, какой текст вы использовали для языковой модели и так далее. Я бы не надеялся, что он распознает такие слова, как Wijayaba.   -  person Nikolay Shmyrev    schedule 01.01.2017
comment
@NikolayShmyrev Включил текстовый файл корпуса, код Python и результирующий файл JSON. Я использовал языковую модель US eng плюс идентификатор пользовательской модели (на снимке экрана показано, как я добавил пользовательскую модель). Код, который я использовал, был взят из git hub rep и в файле сокета я добавил пользовательскую модель.   -  person Athif Shaffy    schedule 02.01.2017


Ответы (2)


Во-первых, если я что-то не упустил, некоторые слова, которые вы сказали, на самом деле не появляются в файле corpus1.txt. Очевидно, сервису необходимо знать слова, которые вы ожидаете от него расшифровать.

Далее, сервис ориентирован на более распространенные речевые модели. Список произвольных имен сложен, потому что он не может угадать слово на основе его контекста. Обычно это то, что предоставляет пользовательский корпус, но в данном случае это не работает (если только вы не читаете имена в точном порядке, в котором они появляются в корпусе — и даже в этом случае они появляются только один раз и без какого-либо контекста, в котором сервис уже распознал бы.)

Чтобы компенсировать это, в дополнение к корпусу пользовательских слов вам может потребоваться указать sounds_like для многих из них, чтобы указать произношение: http://www.ibm.com/watson/developercloud/doc/преобразованиеречивтекст/custom.shtml#addWords

Это немного больше работы (ее нужно проделать для каждого слова, которое служба не распознает правильно), но оно должно улучшить ваши результаты.

В-третьих, предоставленный вами аудиофайл имеет значительное количество фонового шума, который ухудшит ваши результаты. Лучший микрофон/место записи/и т.д. помогу.

Наконец, говоря более четко, с точной диктовкой и как можно более близким к «стандартному» американскому английскому акценту, вы также должны помочь улучшить результаты.

person Nathan Friedly    schedule 03.01.2017

Основная проблема, которую я вижу, заключается в том, что звук очень шумный (я слышу треки поездов на заднем плане). Вторая проблема заключается в том, что слова OOV, извлеченные из корпуса, должны быть проверены на точность их произношения. Третьей проблемой может быть проблема с акцентом говорящего (я предполагаю, что вы используете модель американского английского языка) и проблема с акцентным английским языком. Что касается данных обучения пользовательской модели, вы можете попробовать повторить некоторые слова в ваших данных обучения (чтобы придать больший вес новым словам).

Тони Ли IBM Speech team

person Tony Lee    schedule 04.01.2017