Языковые модели: представление Google BERT

В обработке естественного языка (NLP) языковая модель — это модель, которая может оценивать распределение вероятностей набора лингвистических единиц, обычно последовательности слов. . Это интересные модели, поскольку они могут быть построены с небольшими затратами и значительно улучшили некоторые задачи НЛП, такие как машинный перевод, распознавание речи и разбор.

Исторически сложилось так, что один из самых известных подходов основан на марковских моделях и n-граммах. С появлением глубокого обучения появились более мощные модели, обычно основанные на сетях долговременной кратковременной памяти (LSTM). Хотя существующие модели очень эффективны, они обычно являются однонаправленными, а это означает, что в конечном итоге рассматривается только левый (или правый) контекст слова.

В октябре прошлого года команда Google AI Language опубликовала документ, вызвавший ажиотаж в сообществе. BERT (представления двунаправленного кодировщика от трансформеров) — это новая двунаправленная языковая модель, которая достигла современных результатов для 11 сложных задач НЛП, включая анализ настроений, ответ на вопрос и обнаружение перефразирования.

Стратегия предварительного обучения BERT отличается от традиционных вариантов слева направо или справа налево. Новинка состоит из:

  • случайное маскирование некоторого процента входных токенов, а затем прогнозирование только тех замаскированных токенов; это удерживает слова в многослойном контексте от косвенного «видения самих себя».
  • построение задачи бинарной классификации, чтобы предсказать, следует ли предложение B сразу после предложения A, что позволяет модели определять отношения между предложениями, явление, которое напрямую не улавливается классическим языковым моделированием.

Что касается реализации, Google AI открыл исходный код кода для своей статьи, который основан на TensorFlow. Также существуют некоторые реализации PyTorch, например, от Thomas Wolf и Junseong Kim.

Влияние на бизнес-приложения огромно, поскольку это улучшение затрагивает различные области НЛП. Это может привести к более точным результатам машинного перевода, поведения чат-бота, автоматических ответов по электронной почте и анализу отзывов клиентов.