Эта статья первоначально была опубликована в блоге Neurotech Africa.

Из этой статьи вы поймете концепцию машинного перевода, включая его предысторию, типы, технологии машинного перевода и текущее состояние машинного перевода.

Мохд Мустафа: машинный перевод – замечательная технология, но доверять ей нельзя

Машинный перевод начался примерно в 1950-х годах и включал в себя много ручной обработки, где некоторые ограничения, такие как вычислительная мощность, доступность данных и возможности хранения, были действительно сложными.

Примерно в 2000-х годах появление статистических баз данных использовалось разработчиками для обучения компьютеров переводу текста, но проблема ручного труда все еще оставалась актуальной.

Примерно в 2016 году разработчикам из Google пришла в голову захватывающая идея использования моделей нейронного обучения и искусственного интеллекта для обучения механизмов перевода. Встроенный механизм машинного перевода от Google показывает значительное улучшение по сравнению с ранее существовавшими механизмами машинного перевода. Улучшена эффективность и скорость перевода текста на многие языки.

Нейронный машинный перевод оказался настолько эффективным, что Google изменил курс и принял его в качестве своей основной модели разработки. За ними следуют Microsoft и Amazon.

Что такое машинный перевод (MT)?

Машинный перевод – это процесс использования искусственного интеллекта для автоматического перевода контента с одного языка на другой без участия человека.

Использование языкового программного обеспечения, которое со временем обучается и может быть настроено для включения статической бизнес-номенклатуры, является преимуществом. Машинный перевод может значительно сэкономить время, поскольку он способен переводить целые текстовые документы за считанные секунды. Однако имейте в виду, что переводчики-люди всегда должны редактировать переводы, сделанные MT.

С помощью программного обеспечения MT сотрудники могут общаться и сотрудничать в разных часовых поясах. Благодаря общему знанию корпоративной терминологии вероятность ошибок в суждениях снижается.

Использование программного обеспечения, которое со временем обучается и может быть настроено для включения статической бизнес-номенклатуры, является преимуществом. Просто большинство программ машинного перевода обеспечивает согласованные переводы. Чувства и мнения часто отражаются в человеческих переводах, и чувства могут меняться в зависимости от того, кто переводит.

Типы машинных переводов

Чистая правда об идеальной области для применения МТ. Более структурированный контент лучше работает с МТ, например, техническая документация, интеллектуальная собственность и т. д.

Разговорный контент, такой как маркетинг и брендинг, или другой контент, ориентированный на клиента, не является обязательным для использования просто потому, что результаты потребуют большего человеческого редактирования.

Машинные переводы различаются в зависимости от вариантов их использования, выбор правильного инструмента машинного перевода для вашего бизнеса зависит от варианта использования, бюджета и вычислительной мощности. Некоторые из машинных переводов слишком дороги, и вы можете понести затраты, которые не добавят прибыли вашему бизнесу. .

Понимание типов MT поможет сделать правильный выбор в зависимости от варианта использования. Давайте посмотрим, что это за типы MT:

  • Машинный перевод на основе правил (RBMT): самая ранняя форма машинного перевода, состоящая из множества ручных операций. В нем используются грамматические и языковые правила, разработанные языковыми экспертами, а также словари, которые можно настроить для конкретной темы или отрасли.
  • Статистический машинный перевод (RBMT): улучшенная форма машинного перевода на основе правил. Он имеет дело с автоматическим преобразованием предложений на одном человеческом языке, например, суахили, в другой человеческий язык, такой как английский.
  • Нейронный машинный перевод (NMT): это интеллектуальная форма машинного перевода, в которой используется технология искусственного интеллекта для обеспечения точного и более быстрого перевода по сравнению с другими типами машинного перевода. До NMT машины использовали статистические модели для услуг по переводу документов, управляемые жесткими наборами правил, которые не соответствовали гибкости и образной природе языка.

Языковые барьеры влияют на различные виды деловой активности. По мере того, как мир становится меньше благодаря технологиям, предприятия сталкиваются с трудностями при удовлетворении потребностей все более интернациональной потребительской базы. Наем переводческой компании и переводчиков может быть дорогостоящим, но использование технологий для предоставления услуг по переводу документов является экономически эффективным вариантом для улучшения понимания и продвижения инклюзивности.

Как работает машинный перевод?

Очень интересно понять, как работают механизмы машинного перевода, такие как Masakhane translate, G«oogle translate, Amazon, Microsoft Translator и т. д.

Мы рассмотрим нейронный машинный перевод как наиболее часто используемую форму инновационной технологии машинного перевода в мире в настоящее время.

Нейронный машинный перевод — это единая система, которую можно обучать непосредственно на исходном и целевом тексте без необходимости использования специализированных систем по сравнению с SMT.

Проще говоря, чтобы научить машину выполнять перевод, у вас должны быть данные, коллекция из миллионов предложений в зависимости от языков, с которыми вы хотите работать. который показывает правильные переводы и помещает эти предложения в нейронные сети, затем он научится переводить между этими примерами предложений, чтобы вы могли видеть, чтобы переводчик стал умным, он должен быть разоблачен или обучен миллионам предложений.

Звучит легко?

Ой! Нет, это очень технично, давайте посмотрим, что за этим стоит

Каждый язык имеет 2 важных компонента:

  • Токены — наименьшая языковая единица.
  • Грамматика — определяет порядок токенов.

Как насчет Это солнечно, в предложении есть только 3 токена: Это, is и солнечно. Если языки зависели только от токенов, а грамматика игнорировалась, языковой перевод мог быть намного проще.

Грамматика является деликатным вопросом в языковом переводе. Она включает в себя синтаксический анализ и семантический анализ, здесь начинается сложность перевода просто потому, что языки различаются по своему синтаксису и семантике.

Но понимают ли компьютеры грамматику человеческого языка так же, как мы, люди?

Ответ — нет, просто потому, что компьютеры понимают числа.

Вместо того, чтобы определять грамматику для понимания компьютером, нейронные сети делают это за вас. Нейронная сеть способна изучать закономерности в данных и может переводить с исходного языка (например, суахили) на целевой язык (например, английский).

Входные и выходные данные — это предложения, но компьютер воспринимает их как числовые значения. Прежде всего, они выполняют преобразование в числовые формы (векторы и матрицы).

{Предложение (суахили) — до — векторная форма}

Полученный вектор следует преобразовать во второй язык (английский)

{Векторная форма — to — Предложение (английский)}

Этот процесс называется архитектура кодер-декодер.

Эту архитектуру можно изменить, применяя различные усовершенствованные методы, а не рекуррентные нейронные сети (RNN), просто потому, что RNN не проверяет до и после того, как токен делает несовершенные переводы. Улучшенный способ RNN — это долгая кратковременная память (LSTM), если бы он мог проверять до и после токена, но все еще путался с длинными предложениями.

Улучшенная версия LSTM — Двунаправленные рекуррентные нейронные сети. Вместо того, чтобы запускать RNN только в прямом режиме, начиная с первого токена, мы запускаем еще один из последнего токена, идущего от конца к началу. Двунаправленные RNN добавляют скрытый уровень, который передает информацию в обратном направлении для более гибкой обработки.

Затем давайте доработаем механизм внимания. Механизм внимания — это часть нейронной архитектуры, которая позволяет динамически выделять соответствующие функции входных данных, которые в НЛП обычно представляют собой последовательность текстовые элементы. Его можно применять непосредственно к необработанному входу или к его представлению более высокого уровня.

Нейронная сеть считается попыткой упрощенно имитировать действия человеческого мозга. Механизм внимания — это попытка реализовать одно и то же действие выборочной концентрации на нескольких важных вещах при игнорировании других в глубоких нейронных сетях. Подробнее о механизме внимания здесь мы идем.

Последние мысли

По мере того, как инструменты перевода становятся более надежными, бюро переводов будет больше конкурировать за предоставление более качественных и быстрых переводов.

Это означает, что маркетинг и продажи будут необходимы, чтобы оставаться конкурентоспособными на рынке. Возможность продавать свои услуги будет иметь решающее значение для того, чтобы убедить клиентов выбрать именно ваше агентство, а не ваших конкурентов.

Переводческие агентства всегда будут необходимы для предоставления точных услуг и корректуры для устранения ошибок просто потому, что большинство существующих инструментов перевода ограничены объемом данных, которые были обучены.

Также с точки зрения конфиденциальной информации компании не готовы раскрывать в Интернете свои конфиденциальные данные, такие как контракты, медицинские документы и т. д.

Слова путешествуют по мирам. Переводчик к вождению Анны Рускони