Профессор Сэм Боуман и компания создают мульти-жанровый корпус для естественного языкового вывода.

Хотя обработка естественного языка (НЛП) добилась значительных успехов за последние несколько лет, до какой степени алгоритм НЛП может понимать человеческие предложения помимо поверхностного чтения? Хотя они могут с помощью вычислений идентифицировать, считать или выдавать отдельные слова, фразы и предложения, могут ли они уловить значение слов, которые они обрабатывают? Эти вопросы лежат в основе молодой подполи в рамках НЛП, называемой «Вывод естественного языка» (NLI), где в настоящее время сосредоточена работа профессора Центра науки о данных Сэма Боумена.

Типичный тест NLI запускается примерно так: алгоритму дается предложение вроде «Человек играет с собакой», а затем гипотеза о том предложении, как «Две собаки играют вместе». Затем алгоритму будет предложено сравнить предложение с гипотезой и сделать вывод, является ли гипотеза противоречивой (например, ложной), нейтральной или следствием (например, истинной). В этом случае гипотеза является противоречием, и то, способен ли алгоритм вывести ее как таковую, показывает, насколько алгоритм понял предложение.

Однако для того, чтобы исследователи могли провести эти тесты, им нужен корпус пар предложений и гипотез. Такова цель многоформатного корпуса NLI Боумена - захватывающего проекта, который ранее в этом году получил премию Google Faculty Research Award. Работая с Адиной Уильямс и Никитой Нангиа из Нью-Йоркского университета, и Анжелики Лазариду из Google DeepMind, Боуман и его команда создают мультижанровый корпус NLI, основанный на его более ранней работе, корпусе SNLI. Корпус SNLI представляет собой собрание 570 000 пар предложений, написанных людьми, которые были помечены вручную. С момента своего создания корпус SNLI стал жизненно важным ориентиром для исследователей в этой области.

Но недостатком корпуса SNLI является то, что все предложения были извлечены из одного жанра - подписей к изображениям. Однако многожанровый корпус NLI, над которым сейчас работают Боумен и его исследователи, решает эту проблему, извлекая письменные предложения из нескольких различных областей. В дополнение к подписям к изображениям SNLI, многоформатный корпус собирает предложения из художественной литературы, правительственных документов, новостных статей, телефонных транскрипций, путеводителей, отчета об 11 сентября, личной речи, писем, научно-популярных книг и журналов. .

Собирая как письменный, так и устный текст, этот массивный многожанровый корпус поможет исследователям тестировать и выявлять проблемы с их текущими алгоритмами. Это также приближает нас на один шаг к тому, чтобы научиться развивать в машинном мозгу передаваемые языковые навыки. В настоящее время проект использует возможности краудсорсинга, чтобы вручную маркировать отрывки из предложений. Многожанровый корпус NLI также станет основой для совместной задачи RepEval 2017 в конце этого года - вы можете узнать больше об этом здесь.

Черри Квок

Первоначально опубликовано на cds.nyu.edu 14 апреля 2017 г.