Низкая точность преобразования речи в текст Watson с пользовательской моделью

Служба диалогов Watson не распознала мой акцент. Поэтому я использовал пользовательскую модель, и вот результаты до и после использования пользовательской модели.

Результаты тестирования

Перед интеграцией модели :- Когда у вас есть девиз, который есть у них в. Шейла. Джабба среди. Женщина. .

После интеграции модели :- Мы отдаем Оматту Дэвиду. Шри-Ланка. Джабба среди. Количество. губернатор

Фактическое аудио – Аудио 49 ,Виджаяба Мавата,Калюбовила,Дехивела,Шри-Ланка.Правительство.Гов.

Как я включил пользовательскую модель: я использовал тот же файл, что и в демо разветвлено из github В socket.js я включил идентификатор настройки, как показано на рисунке. Там, где другие способы включения пользовательской модели (способы интеграции пользовательской модели), но я хотел бы знать, правильный ли метод, который я сделал?

Вот код Python, который я использовал для создания пользовательской модели.ссылка на код

Вот результат корпуса, который я получил после выполнения кода Python в формате JSON. файл корпуса

Вот пользовательская модель(текстовый файл пользовательской модели, который был включен в код), где Я включил все дороги Шри-Ланки.

Я разветвил файл и отредактировал socket.js следующим образом.

Athif Shaffy 28.12.2016 источник

comment

Вам необходимо предоставить полный код, который вы используете, а не снимок экрана. - Nikolay Shmyrev 31.12.2016

comment

@NikolayShmyrev Я дал ссылку на код. Я развил его из URL link и только отредактировал файл socket.js, включив пользовательскую модель, как показано на снимке экрана. - Athif Shaffy 01.01.2017

comment

@NikolayShmyrev Файл socket.js находится внутри src * - Athif Shaffy 01.01.2017

comment

Пока нет подробностей, какие слова вы добавили в пользовательскую модель, какой текст вы использовали для языковой модели и так далее. Я бы не надеялся, что он распознает такие слова, как Wijayaba. - Nikolay Shmyrev 01.01.2017

comment

@NikolayShmyrev Включил текстовый файл корпуса, код Python и результирующий файл JSON. Я использовал языковую модель US eng плюс идентификатор пользовательской модели (на снимке экрана показано, как я добавил пользовательскую модель). Код, который я использовал, был взят из git hub rep и в файле сокета я добавил пользовательскую модель. - Athif Shaffy 02.01.2017

Ответы (2)

arrow_upward
2
arrow_downward

Во-первых, если я что-то не упустил, некоторые слова, которые вы сказали, на самом деле не появляются в файле corpus1.txt. Очевидно, сервису необходимо знать слова, которые вы ожидаете от него расшифровать.

Далее, сервис ориентирован на более распространенные речевые модели. Список произвольных имен сложен, потому что он не может угадать слово на основе его контекста. Обычно это то, что предоставляет пользовательский корпус, но в данном случае это не работает (если только вы не читаете имена в точном порядке, в котором они появляются в корпусе — и даже в этом случае они появляются только один раз и без какого-либо контекста, в котором сервис уже распознал бы.)

Чтобы компенсировать это, в дополнение к корпусу пользовательских слов вам может потребоваться указать sounds_like для многих из них, чтобы указать произношение: http://www.ibm.com/watson/developercloud/doc/преобразованиеречивтекст/custom.shtml#addWords

Это немного больше работы (ее нужно проделать для каждого слова, которое служба не распознает правильно), но оно должно улучшить ваши результаты.

В-третьих, предоставленный вами аудиофайл имеет значительное количество фонового шума, который ухудшит ваши результаты. Лучший микрофон/место записи/и т.д. помогу.

Наконец, говоря более четко, с точной диктовкой и как можно более близким к «стандартному» американскому английскому акценту, вы также должны помочь улучшить результаты.

Nathan Friedly 03.01.2017

arrow_upward
2
arrow_downward

Основная проблема, которую я вижу, заключается в том, что звук очень шумный (я слышу треки поездов на заднем плане). Вторая проблема заключается в том, что слова OOV, извлеченные из корпуса, должны быть проверены на точность их произношения. Третьей проблемой может быть проблема с акцентом говорящего (я предполагаю, что вы используете модель американского английского языка) и проблема с акцентным английским языком. Что касается данных обучения пользовательской модели, вы можете попробовать повторить некоторые слова в ваших данных обучения (чтобы придать больший вес новым словам).

Тони Ли IBM Speech team

Tony Lee 04.01.2017

Низкая точность преобразования речи в текст Watson с пользовательской моделью

Результаты тестирования

Ответы (2)

Похожие вопросы