BERT с 256 скрытыми вложениями

Я пытаюсь использовать BERT, чтобы получить вложения слов из разных наборов данных для моей задачи NLP. Я использовал bert_base_uncased с 768 вложениями слов, но ему не хватает памяти. Вышла версия с встраиванием 256 слов? Или есть способ сжать 768 скрытых вложений? Спасибо!


person Black    schedule 17.03.2020    source источник


Ответы (1)


Я не уверен насчет версий встраивания 256 слов для BERT, но я знаю, что более новые ALBERT использует намного меньше памяти по сравнению с BERT. Кроме того, если вы постоянно сталкиваетесь с проблемами OOM, вы можете попробовать обучение с 16-битной точностью или обучение со смешанной точностью. Это хорошо работает с новыми картами RTX (и некоторыми другими, но не со старыми графическими процессорами).

У Nvidia есть библиотека для этого, но она не очень удобна для новичков, или вы также можете рассмотреть возможность использования Pytorch Lightning для преобразования вашей модели в 16-битную.

person YoongJH    schedule 20.03.2020
comment
Спасибо за помощь! Была выпущена версия BERT для 256 на huggingface.co/google/bert_uncased_L-12_H -256_A-4 (для будущих читателей) - person Black; 21.03.2020