Статьи по тематике language-model

Публикации по теме 'language-model'

Интеллектуальные мутации в генетическом программировании: OpenAI предлагает эволюцию с помощью больших моделей

Крупномасштабные языковые модели (LLM) достигли впечатляющих результатов в автоматизированной генерации кода за счет использования человеческих знаний и обучения на чрезвычайно больших наборах данных. Возможно ли объединить LLM, основанные на глубоком обучении, с генетическим программированием (GP) — генеративной техникой, которая может развиваться в условиях ограниченных ресурсов — для…

Борьба с галлюцинациями: LLM-Augmenter от Microsoft повышает оценку фактических ответов ChatGPT

За три месяца с момента выпуска способность ChatGPT генерировать человекоподобные, последовательные и информативные ответы на широкий круг вопросов превратила диалоговую модель большого языка OpenAI (LLM) из любопытства в магнит для публичных дискуссий о плюсах и минусах ИИ. Несмотря на то, что похвал было много,…

DocPrompting от CMU и Inspired Cognition улучшает генерацию кода, получая соответствующие…

Способность больших языковых моделей генерировать компьютерный код из подсказок на естественном языке (NL) произвела революцию в области программирования. Однако большинство современных моделей могут генерировать код только для видимых библиотек и вызовов функций, и возникают проблемы, когда они сталкиваются с какими-либо новыми библиотеками или функциями, которые…

Построение образца генератора твитов синтетической топовой компании NASDAQ

Подготовка данных и обучение на образце модели типа GPT В этой статье я описываю процесс создания простого синтетического генератора твитов топ-компании. Он обучается на избранных твитах о ведущих компаниях NASDAQ с 2015 по 2020 год , собранных для следующей бумаги : М. Доган, О. Метин, Э. Тек, С. Юмушак и К. Озтопрак, «Оценка спекулянтов и влиятельных лиц на фондовом рынке с использованием социальных сетей», Международная конференция IEEE по большим данным (большие данные),..

Модели нейронного языка - путь к общему искусственному интеллекту или тупик?

Автор: профессор, доктор Йенс Леманн. [Отказ от ответственности: приведенный ниже текст представляет личное мнение, основанное на имеющихся у нас научных данных.] В связи с быстрым прогрессом, достигнутым в исследованиях искусственного интеллекта за последние годы, давний вопрос о том, могут ли машины достичь определенной формы общего интеллекта, снова приобрел большой интерес. Одной конкретной технологией, которая сыграла важную роль в этих обсуждениях, являются (нейронные)..

Технологии Джорджии и Microsoft раскрывают «супербилеты» в предварительно обученных языковых моделях: улучшение модели…

Методы сокращения нейронных сетей могут эффективно сократить количество параметров исходных больших обученных сетей более чем на 90 процентов без ущерба для точности. Таким образом, мы можем сделать вывод, что если сеть можно уменьшить в размерах, вместо этого можно обучить эту меньшую архитектуру, что сделает процесс обучения более эффективным. Следуя этому выводу, в документе MIT CSAIL 2018 года были обнаружены подсети, которые обучаются с самого начала и обучаются, по крайней мере,..

Вопросы по теме 'language-model'

Каков наиболее эффективный способ хранения языковых моделей в приложениях НЛП?

Как они обычно хранят и обновляют языковые модели (например, модели N-грамм)? Какая структура является наиболее эффективным способом хранения этих моделей в базах данных?

1152 просмотров

nlp language-model n-gram

26.09.2022

Обучение языковой модели TensorFlow с помощью NCE или выборки softmax

Я адаптирую учебник TensorFlow RNN для обучения языковой модели с потерей NCE или сэмплированным softmax, но я все еще хочу сообщить о недоумениях. Однако недоумения, которые я получаю, очень странные: за NCE я получаю несколько миллионов (ужасно!),...

1165 просмотров

tensorflow lstm softmax language-model

01.02.2023

Есть ли предложение, встраивающее языковую модель Tensorflow?

Я нашел проект tensorflow 1b_lm: https://github.com/tensorflow/models/tree/master/lm_1b Я просто совсем запутался в четвертом примере Дайте предложение, дамп встраивания из состояния LSTM. Однако результаты этого примера включают 7...

1352 просмотров

tensorflow nlp recurrent-neural-network word-embedding language-model

03.08.2023

Получение вероятности модели встраивания текста с заданным словом в модели gensim word2vec

Я пытаюсь получить наиболее вероятную последовательность слов, используя модель gensim word2vec. Я нашел предварительно обученную модель, которая предоставляет эти файлы: word2vec.bin word2vec.bin.syn0.npy word2vec.bin.syn1neg.npy Это мой...

701 просмотров

python nlp gensim word2vec language-model

08.10.2022

Используйте BERT для извлечения признаков уникального слова

Я использую BERT для извлечения признаков слова с учетом текста, в котором оно появляется, но, похоже, текущая реализация в официальном github bert ( https://github.com/google-research/bert ) может вычислять характеристики только всех слов в тексте,...

1164 просмотров

python tensorflow nlp language-model

13.12.2022

Доступ к маскированной языковой модели spaCy

Начиная с версии 2.1, spaCy имеет языковую модель в стиле BERT (LM). Он предсказывает слова-векторы вместо слов, поэтому я собираюсь использовать здесь «слова» и «словесные векторы» как синонимы. Мне нужно взять предложение с замаскированным...

173 просмотров

python nlp spacy language-model

04.05.2022

В чем разница между обучением RNN для предсказания последнего слова данной последовательности и предсказанием сдвига всей последовательности в PyTorch?

Допустим, я пытаюсь обучить языковую модель RNN в PyTorch. Предположим, я перебираю пакеты последовательностей слов и каждый тензор обучающего пакета имеет следующую форму: data.shape = [batch_size, sequence_length, vocab_dim] Мой вопрос: в...

153 просмотров

python pytorch machine-learning recurrent-neural-network language-model

15.03.2022