Публикации по теме 'language-model'


Интеллектуальные мутации в генетическом программировании: OpenAI предлагает эволюцию с помощью больших моделей
Крупномасштабные языковые модели (LLM) достигли впечатляющих результатов в автоматизированной генерации кода за счет использования человеческих знаний и обучения на чрезвычайно больших наборах данных. Возможно ли объединить LLM, основанные на глубоком обучении, с генетическим программированием (GP) — генеративной техникой, которая может развиваться в условиях ограниченных ресурсов — для…

Борьба с галлюцинациями: LLM-Augmenter от Microsoft повышает оценку фактических ответов ChatGPT
За три месяца с момента выпуска способность ChatGPT генерировать человекоподобные, последовательные и информативные ответы на широкий круг вопросов превратила диалоговую модель большого языка OpenAI (LLM) из любопытства в магнит для публичных дискуссий о плюсах и минусах ИИ. Несмотря на то, что похвал было много,…

DocPrompting от CMU и Inspired Cognition улучшает генерацию кода, получая соответствующие…
Способность больших языковых моделей генерировать компьютерный код из подсказок на естественном языке (NL) произвела революцию в области программирования. Однако большинство современных моделей могут генерировать код только для видимых библиотек и вызовов функций, и возникают проблемы, когда они сталкиваются с какими-либо новыми библиотеками или функциями, которые…

Построение образца генератора твитов синтетической топовой компании NASDAQ
Подготовка данных и обучение на образце модели типа GPT В этой статье я описываю процесс создания простого синтетического генератора твитов топ-компании. Он обучается на избранных твитах о ведущих компаниях NASDAQ с 2015 по 2020 год , собранных для следующей бумаги : М. Доган, О. Метин, Э. Тек, С. Юмушак и К. Озтопрак, «Оценка спекулянтов и влиятельных лиц на фондовом рынке с использованием социальных сетей», Международная конференция IEEE по большим данным (большие данные),..

Модели нейронного языка - путь к общему искусственному интеллекту или тупик?
Автор: профессор, доктор Йенс Леманн. [Отказ от ответственности: приведенный ниже текст представляет личное мнение, основанное на имеющихся у нас научных данных.] В связи с быстрым прогрессом, достигнутым в исследованиях искусственного интеллекта за последние годы, давний вопрос о том, могут ли машины достичь определенной формы общего интеллекта, снова приобрел большой интерес. Одной конкретной технологией, которая сыграла важную роль в этих обсуждениях, являются (нейронные)..

Технологии Джорджии и Microsoft раскрывают «супербилеты» в предварительно обученных языковых моделях: улучшение модели…
Методы сокращения нейронных сетей могут эффективно сократить количество параметров исходных больших обученных сетей более чем на 90 процентов без ущерба для точности. Таким образом, мы можем сделать вывод, что если сеть можно уменьшить в размерах, вместо этого можно обучить эту меньшую архитектуру, что сделает процесс обучения более эффективным. Следуя этому выводу, в документе MIT CSAIL 2018 года были обнаружены подсети, которые обучаются с самого начала и обучаются, по крайней мере,..

Вопросы по теме 'language-model'

Каков наиболее эффективный способ хранения языковых моделей в приложениях НЛП?
Как они обычно хранят и обновляют языковые модели (например, модели N-грамм)? Какая структура является наиболее эффективным способом хранения этих моделей в базах данных?
1152 просмотров
schedule 26.09.2022

Обучение языковой модели TensorFlow с помощью NCE или выборки softmax
Я адаптирую учебник TensorFlow RNN для обучения языковой модели с потерей NCE или сэмплированным softmax, но я все еще хочу сообщить о недоумениях. Однако недоумения, которые я получаю, очень странные: за NCE я получаю несколько миллионов (ужасно!),...
1165 просмотров
schedule 01.02.2023

Есть ли предложение, встраивающее языковую модель Tensorflow?
Я нашел проект tensorflow 1b_lm: https://github.com/tensorflow/models/tree/master/lm_1b Я просто совсем запутался в четвертом примере Дайте предложение, дамп встраивания из состояния LSTM. Однако результаты этого примера включают 7...
1352 просмотров

Получение вероятности модели встраивания текста с заданным словом в модели gensim word2vec
Я пытаюсь получить наиболее вероятную последовательность слов, используя модель gensim word2vec. Я нашел предварительно обученную модель, которая предоставляет эти файлы: word2vec.bin word2vec.bin.syn0.npy word2vec.bin.syn1neg.npy Это мой...
701 просмотров
schedule 08.10.2022

Используйте BERT для извлечения признаков уникального слова
Я использую BERT для извлечения признаков слова с учетом текста, в котором оно появляется, но, похоже, текущая реализация в официальном github bert ( https://github.com/google-research/bert ) может вычислять характеристики только всех слов в тексте,...
1164 просмотров
schedule 13.12.2022

Доступ к маскированной языковой модели spaCy
Начиная с версии 2.1, spaCy имеет языковую модель в стиле BERT (LM). Он предсказывает слова-векторы вместо слов, поэтому я собираюсь использовать здесь «слова» и «словесные векторы» как синонимы. Мне нужно взять предложение с замаскированным...
173 просмотров
schedule 04.05.2022

В чем разница между обучением RNN для предсказания последнего слова данной последовательности и предсказанием сдвига всей последовательности в PyTorch?
Допустим, я пытаюсь обучить языковую модель RNN в PyTorch. Предположим, я перебираю пакеты последовательностей слов и каждый тензор обучающего пакета имеет следующую форму: data.shape = [batch_size, sequence_length, vocab_dim] Мой вопрос: в...
153 просмотров