Публикации по теме 'transformers'


Разбивка трансформатора : позиционное кодирование
В документе «Внимание» впервые была представлена ​​архитектура, основанная на чистом внимании, заменяющая повторение и неявную позиционную информацию вниманием. Для ввода позиционной информации было введено позиционное кодирование. При первом чтении я нашел позиционное кодирование пугающим и не мог понять, как авторы пришли к этому. У меня в голове возникло несколько вопросов. Зачем нам это нужно? Какие еще есть альтернативы? Каковы характеристики идеального позиционного вложения?..

ECCO : Расшифровка замаскированных трансформеров.
Инструмент на основе Python для объяснения моделей языковых преобразователей. Большинство организаций сегодня мигрируют к модному слову Машинное обучение и ИИ , создавая множество моделей, начиная от традиционных моделей и заканчивая передовыми моделями нейронных сетей (будь то CNN, RNN, LSTM или даже Transformers), чтобы решить сложную работу и получить прогнозы или Запуск рабочих мест автоматизации с замкнутым циклом и упрощение повседневных задач. Чтобы проверить надлежащую..

Упрощенное глубокое обучение: чувствуйте и говорите как эксперт в области нейронных сетей
15-минутное руководство, чтобы почувствовать себя супер умным в многослойном персептроне, сверточных нейронных сетях и сетях последовательностей Искусственный интеллект (ИИ), машинное обучение (МО), глубокое обучение, искусственные нейронные сети (ИНС) — популярные модные слова, часто используемые как взаимозаменяемые, о которых все говорят. Но многие ли из нас действительно понимают их значение и различия? Услышав незнакомые термины, такие как многослойный персептрон, прямое..

От деревьев решений к трансформерам: сравнение моделей анализа настроений для македонского ресторана…
Методы машинного обучения для анализа отзывов о македонских ресторанах В то время как модели машинного обучения для обработки естественного языка традиционно были сосредоточены на популярных языках, таких как английский и испанский, менее распространенные языки получили гораздо меньше развития. Однако в связи с недавним ростом электронной коммерции из-за пандемии COVID-19 даже менее распространенные языки, такие как македонский, генерируют большие объемы данных посредством..

Понимание концепций машинного перевода
Эта статья первоначально была опубликована в блоге Neurotech Africa . Из этой статьи вы поймете концепцию машинного перевода, включая его предысторию, типы, технологии машинного перевода и текущее состояние машинного перевода. Мохд Мустафа: машинный перевод – замечательная технология, но доверять ей нельзя Машинный перевод начался примерно в 1950-х годах и включал в себя много ручной обработки, где некоторые ограничения, такие как вычислительная мощность, доступность данных и..

Генерация текста с помощью GPT-2 и пакета Transformers Python
Приключения в неконтролируемом обучении Обучение без присмотра в подзаголовке относится к моему собственному обучению без присмотра в попытке выяснить, как заставить библиотеку Трансформеры Hugging Face работать с TensorFlow . Я сделал этот урок и кучу других, и я просмотрел все статьи, но все еще чувствовал, что делаю это без присмотра. Преамбула: Трансформеры Насколько я понимаю, модель трансформатора — это модель на основе нейронной сети, которая является самореферентной —..

AI и стена памяти
(Этот блог был написан в сотрудничестве с Чжевэй Яо, Сехун Ким, Майклом В. Махони и Куртом Койцером. Данные, использованные для этого исследования, доступны в Интернете .) Объем вычислений, необходимых для обучения моделей SOTA AI в области компьютерного зрения (CV), обработки естественного языка (NLP) и обучения речи, в последнее время увеличивается со скоростью 15 раз каждые два года, как показано на рисунке 1. Важно отметить, что это масштабирование был значительно более быстрым..