Публикации по теме 'doc2vec'


Реализация мультиклассовой классификации текста с помощью Doc2Vec
Реализация мультиклассовой классификации текста с помощью Doc2Vec Вступление В этом посте вы узнаете, как классифицировать текстовые документы по различным категориям при использовании Doc2Vec для представления документов. Мы узнаем это с помощью простого для понимания примера классификации сюжетов фильмов по жанрам с использованием Doc2vec для представления функций и использования логистической регрессии в качестве алгоритма классификации. Набор данных фильма содержит краткие..

Вопросы по теме 'doc2vec'

Что представляет параметр размера в gensim doc2vec
В doc2vec функции есть параметр size . Я понимаю, что size - это размер выходного вектора, и если size=400 , он захватит контент лучше, чем если бы size=100 . Однако я не понимаю, что означает size ? Означает ли это, как далеко...
581 просмотров
schedule 08.07.2022

В чем разница между gensim LabeledSentence и TaggedDocument
Пожалуйста, помогите мне понять разницу между тем, как работает TaggedDocument и LabeledSentence из gensim . Моя конечная цель - классификация текста с использованием модели Doc2Vec и любого классификатора. Я читаю этот блог ! class...
3787 просмотров

Gensim: как загрузить предварительно обученную модель doc2vec?
Я пытаюсь прочитать свою предварительно обученную модель doc2vec: from gensim.models import Doc2Vec model = Doc2Vec.load('/path/to/pretrained/model') Однако во время чтения появляется ошибка. Может ли кто-нибудь подсказать, как с этим...
1494 просмотров
schedule 20.08.2022

Кластеризация предложений Doc2Vec
У меня есть несколько документов, содержащих несколько предложений. Я хочу использовать doc2vec для кластеризации (например, k-средних) векторов предложений с помощью sklearn . Таким образом, идея состоит в том, что похожие предложения...
5447 просмотров

непостоянное сходство между предполагаемыми и обученными векторами в doc2vec
Я обучил векторную модель абзаца от gensim, используя значительный объем текстовых данных. Я сделал следующий тест: я проверил индекс любого предложения, а затем вывел для него вектор. >>> x=m.docvecs[18638] >>>...
578 просмотров
schedule 05.10.2022

Doc2Vec Хуже среднего или суммы векторов Word2Vec
Я тренирую Word2Vec модель, например: model = Word2Vec(documents, size=200, window=5, min_count=0, workers=4, iter=5, sg=1) и Doc2Vec модель вроде: doc2vec_model = Doc2Vec(size=200, window=5, min_count=0, iter=5, workers=4, dm=1)...
3868 просмотров

Ошибка python: объект 'numpy.ndarray' не имеет атрибута 'words' при обучении doc2vec
когда я обучал свою модель doc2vec, я проходил через набор данных несколько раз и каждый раз перетасовывал обзоры обучения, чтобы повысить точность. Затем python предоставил мне объект AttributeError: 'numpy.ndarray' не имеет атрибута 'words' ....
1310 просмотров
schedule 05.07.2023

Удалить наиболее часто встречающиеся слова из набора данных
Я пытаюсь работать с текстом, в котором много повторений. Раньше я использовал векторизатор tf-idf от SKLearn, и у него есть параметр max_df=0.5 . Это означает, что если слово присутствует более чем в 50% ввода, оно не используется. Я хотел бы...
822 просмотров
schedule 13.04.2023

косинусное сходство составляет 0,7 для точно таких же предложений
Косинусное сходство для двух одинаковых предложений равно 0,7. Моя модель doc2vec верна? Я использую набор данных пар вопросов quora, доступный в kaggle. В приведенном ниже коде train1 - это список первых вопросов, а train2 - список вторых...
269 просмотров
schedule 23.05.2022

Как правильно пометить список документов Gensim TaggedDocument()
Я хотел бы пометить список документов Gensim TaggedDocument() , а затем передать эти документы, как при вводе Doc2Vec() . Я прочитал документацию о TaggedDocument здесь , но Я не понял, что такое параметры words и tags . Я пытался:...
992 просмотров
schedule 11.10.2022

gensim - Doc2Vec: разница между эпохами и другими
При чтении документации gensim Doc2Vec я немного запутался в некоторых вариантах. Например, конструктор Doc2Vec имеет параметр iter : iter (int) - Количество итераций (эпох) по корпусу. Почему тогда метод train также имеет аналогичный...
1315 просмотров
schedule 26.09.2022

Как получить текст корпуса википедии с пунктуацией с помощью gensim wikicorpus?
Я пытаюсь получить текст с его пунктуацией, так как важно учитывать последнюю в моей модели doc2vec. Однако викикорпус извлекает только текст. После поиска в Интернете я нашел эти страницы: Страница из раздела проблем gensim на github. Это был...
2362 просмотров
schedule 23.07.2023

Обучение Gensim Doc2Vec вылетает с ошибкой Killed: 9
У меня есть документы с более чем 37 миллионами предложений, и я использую Gensim Doc2Vec для их обучения. Обучение модели отлично работает с небольшими наборами данных, скажем, с 5-10 миллионами записей. Однако при обучении на полном наборе данных...
697 просмотров
schedule 23.06.2023

Doc2vec - О получении вектора документа
Я совсем недавно изучаю doc2vec и у меня есть вопросы о векторе документа. Я пытаюсь получить векторную фразу вроде «кошачье млекопитающее». Итак, что я пробовал до сих пор, используя предварительно обученную модель doc2vec, я пробовал код ниже...
520 просмотров
schedule 02.08.2023

Является ли вектор документа, полученный с помощью PV-DBOW, эквивалентным среднему/сумме векторов слов, содержащихся в документе?
Я видел, что в некоторых сообщениях говорится, что среднее значение векторов слов работает лучше в некоторых задачах, чем векторы документов, полученные с помощью PV_DBOW. Какова связь между вектором документа и средним/суммой векторов его слов?...
126 просмотров

Неконтролируемый анализ настроений с использованием doc2vec
Близкие, Я искал в Google разные типы статей / блогов / руководств и т. Д., Но не нашел ничего полезного. Буду признателен, если кто-нибудь может мне помочь. Обратите внимание, что я прошу не пошаговый код, а идею / блог / статью или какое-то...
530 просмотров

Зачем использовать TaggedBrownCorpus при обучении gensim doc2vec
В настоящее время я использую настраиваемый корпус с документами с тегами class ClassifyCorpus(object): def __iter__(self): with open(train_data) as fp: for line in fp: splt = line.split(':')...
37 просмотров
schedule 02.08.2023

Gensim Doc2vec - KeyError: тег не отображается в обучающем корпусе / недействителен
Я использую Gensim Doc2vec для изучения функций из новостных статей. Я могу успешно обучать свои документы. Однако мне сложно извлечь векторы документа из модели для дальнейшей обработки. Пример кода (непосредственно из документации gensim ):...
1609 просмотров
schedule 21.02.2022

Как улучшить воспроизводимость косинусного подобия Doc2vec
Я использую Gensim's Doc2vec для обучения модели, и я использую infer_vector, чтобы вывести вектор нового документа для сравнения документа подобия модели. Однако повторное использование одного и того же документа может привести к очень разным...
506 просмотров
schedule 06.04.2022

Я получаю больше векторов, чем размер моего документа - gensim doc2vec
У меня есть белковые последовательности, и я хочу сделать doc2vec. Моя цель - иметь один вектор для каждого предложения / последовательности. У меня 1612 предложений / последовательностей и 30 классов, поэтому метка не уникальна, и многие...
501 просмотров
schedule 04.08.2022