Распознавание речи сегодня является одной из наиболее широко используемых технологий во многих предложениях. От диалоговых чат-ботов и программного обеспечения для анализа речи до интерфейса CX, применение технологии распознавания речи разнообразно. Рост популярности распознавания речи можно объяснить активным использованием искусственного интеллекта, поддерживаемого возможностями машинного обучения и обучения данным.

Несмотря на то, что работа в области распознавания речи ведется уже несколько десятилетий, показатели успеха выросли только с внедрением функций искусственного интеллекта и машинного обучения. Например, распознавание речи было одной из первых областей исследований софтверного гиганта Microsoft в начале 1990-х годов. Решения по распознаванию речи в то время имели лишь ограниченное коммерческое применение.

Microsoft представила технологию распознавания речи вместе со своей популярной ОС Windows 95, но уровень ошибок был близок к 100%. Сравните это с уровнем точности Cortana, превышающим 90%, новейшим телефонным помощником компании, который показывает, насколько функциональные возможности искусственного интеллекта и машинного обучения изменили правила игры. Поскольку масштабируемость напрямую связана с точностью и удобством использования, традиционные инструменты распознавания речи с трудом поддаются масштабированию.

Проблемы масштабируемости без ИИ и машинного обучения

Цель инструментов распознавания речи всегда заключалась в том, чтобы достичь уровня точности, сравнимого с человеческими способностями. В общении между людьми в среднем пропущено два слова из каждых 20. Хотя это может не быть проблемой для людей, инструменты распознавания речи не смогли преодолеть этот барьер точности.

Например, люди могут понимать, несмотря на громкие фоновые шумы, искажения в линии связи или даже изменение акцента. Если программное обеспечение распознавания речи не построено аналитически на функциях машинного обучения, ему может быть трудно декодировать такие изменения голосовой модуляции или акцента, что нарушает функциональность системы распознавания речи. Неудивительно, что более низкие показатели точности приводили к снижению масштабируемости инструментов распознавания речи в прошлом.

Точность связывания и масштабируемость

Чем точнее инструмент распознавания речи, тем выше его масштабируемость. Одним из лучших примеров является случай с Wit.ai, 18-месячным стартапом из Пало-Альто, который был приобретен Facebook в 2015 году из-за высокой точности его инструмента распознавания речи. С точностью 95% Siri не только превосходит голосовых помощников, но и является самым широко используемым персональным голосовым помощником в мире. Baidu, ответ Китая на Google, значительно расширился благодаря высокому уровню точности, который на 96% даже лучше, чем у многих людей, когда дело доходит до определения произносимых слов как на английском, так и на мандаринском диалекте.

Вывод. Инструменты распознавания речи стали масштабируемыми благодаря функциям искусственного интеллекта и машинного обучения, обеспечивающим более высокую точность и лучшие аналитические данные.

Чтобы лучше понять важность искусственного интеллекта и машинного обучения в технологии распознавания речи и их будущих приложений, прочитайте технический документ Актуальность искусственного интеллекта и машинного обучения в распознавании речи