Учитывая набор данных классификации настроений, я хочу уточнить Берта.
Как вы знаете, BERT создан для предсказания следующего предложения с учетом текущего предложения. Таким образом, чтобы сеть знала об этом, они вставили токен [CLS]
в начало первого предложения, затем они добавили токен [SEP]
, чтобы отделить первое предложение от второго и, наконец, еще один [SEP]
в конце второго предложения (это не ясно мне, почему они добавляют еще один токен в конце).
В любом случае, что касается классификации текста, то, что я заметил в некоторых примерах в Интернете (см. BERT в Keras с концентратором Tensorflow) заключается в том, что они добавляют токен [CLS]
, затем предложение и в конце еще один токен [SEP]
.
Если в других исследовательских работах (например, Обогащение предварительно обученной языковой модели информацией о сущностях для классификации отношений) они удалить последний [SEP]
токен.
Почему нецелесообразно добавлять токен [SEP]
в конец вводимого текста, если в моей задаче используется только одно предложение?