Публикации по теме 'gensim'


Тематические модели: зачем, что и как
Зачем нам нужны тематические модели? Одна из самых простых проблем обработки естественного языка - это понимание большого количества текстовых данных. Имеет ли смысл смысл ? В противном случае представьте себя предпринимателем, который хочет создать следующий большой продукт. После месяцев напряженной работы бета-версия вышла и открыта для клиентов. Вы создали форум, где люди могут рассказать, что им нравится в продукте, а что нет. В первый день 312 человек написали, что думают о..

Вопросы по теме 'gensim'

готовые матрицы для скрытого семантического анализа
Я хочу использовать латентный семантический анализ для небольшого приложения, которое я создаю, но я не хочу создавать матрицы самостоятельно. (Отчасти потому, что документы, которые у меня есть, не могли бы составить очень хорошую тренировочную...
460 просмотров

Используется ли стемминг, когда gensim создает словарь для модели tf-idf?
Я использую набор инструментов Python Gensim для создания модели tf-idf для документов. Поэтому мне нужно сначала создать словарь для всех документов. Однако я обнаружил, что Gensim не использует стемминг перед созданием словаря и корпуса. Я прав ?
882 просмотров
schedule 12.09.2022

Используйте Gensim для оценки функций в каждом документе. Также проблема с памятью Python
Я использую GENSIM для корпуса из 50000 документов вместе со словарем, содержащим около 4000 функций. У меня также есть модель LSI , уже подготовленная для того же самого. Теперь я хочу найти наиболее подходящие функции для каждого из...
1170 просмотров

Gensim train word2vec в википедии - предварительная обработка и параметры
Я пытаюсь обучить модель word2vec из gensim , используя итальянскую википедию " http://dumps.wikimedia.org/itwiki/latest/itwiki-latest-pages-articles.xml.bz2 " Однако я не уверен, что лучше всего препроцессировать для этого корпуса. gensim...
8892 просмотров
schedule 06.03.2023

Набор данных BleiCorpus и Associated Press в Gensim: IO Error
Я пытаюсь следовать руководству по тематическому моделированию / скрытому распределению Дирихле (LDA) в книге «Создание систем машинного обучения» с помощью Python. В этой книге я не зашел слишком далеко, и первая часть тематического моделирования...
1489 просмотров
schedule 17.06.2023

Эквивалентность параметров Word2Vec и Gensim
Gensim - это оптимизированный порт Word2Vec для Python (см. http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/ ) В настоящее время я использую эти векторы: http://clic.cimec.unitn.it/composes/semantic-vectors.html Я...
4115 просмотров
schedule 05.11.2022

Использование векторов freebase с gensim
Я пытаюсь использовать вложения слов freebase, выпущенные Google, но мне трудно получить слова из имени freebase. model = gensim.models.Word2Vec.load_word2vec_format('freebase-vectors-skipgram1000.bin',binary=True) model.vocab.keys()[:10]...
1779 просмотров
schedule 24.07.2022

Gensim word2vec находит ближайшие слова по заданному слову
Как я могу найти N-ближайшие слова по заданному слову, используя реализацию gensim word2vec. Какой API для этого? Я имею в виду пропуск граммов здесь. Может я что-то пропустил, я читал все о поиске похожих слов, поиске лишнего и так далее... В...
2153 просмотров
schedule 11.04.2023

Смещение word2vec в сторону специального корпуса
Я новичок в stackoverflow. Пожалуйста, простите мой плохой английский. Я использую word2vec в школьном проекте. Я хочу работать с корпусом для конкретной предметной области (например, с учебником по физике) для создания векторов слов с помощью...
587 просмотров
schedule 22.04.2023

Настройка word2vec - KeyError: слово 'word' отсутствует в словаре
Я пытаюсь использовать word2vec, но при попытке сделать что-либо с любым словом выдает ошибку. Кажется, проблема с кодировкой, вот что я сделал: Инициируйте word2vec: import gensim, logging logging.basicConfig(format='%(asctime)s :...
8597 просмотров

Получить слово из массива в word2vec в gensim
Я только начал экспериментировать с word2vec form gensim, используя учебник, представленный в http://rare-technologies.com/word2vec-tutorial/ . Если нам нужны необработанные выходные векторы, мы пишем: model['computer'] И результат:...
764 просмотров
schedule 08.07.2023

импорт gensim в mac
У меня проблема при попытке импортировать gensim в python. При вводе: импорт генсим Получила следующую ошибку: Отслеживание (последний вызов последним): файл "", строка 1, в файле "/Library/Python/2.7/site-packages/gensim/ init .py",...
1809 просмотров
schedule 25.04.2022

Проверка точности word2vec в gensim
В настоящее время я использую gensim, чтобы воспроизвести результат примера, предоставленного Google. здесь Проблема в том, что проверка точности gensim не совпадает с результатами Google. Например, точность определения стран-столиц в Google...
4803 просмотров
schedule 10.10.2022

gensim word2vec: найти количество слов в словаре
После обучения модели word2vec с использованием gensim python, как определить количество слов в словарный запас модели?
66903 просмотров
schedule 31.10.2022

Проблемы с установкой библиотеки Gensim Python 3.4: http://www.lfd.uci.edu/~gohlke/pythonlibs/
Я установил 2 библиотеки Python: NumPy - 1.10.4 Scipy - 0,17,0 которые необходимы для успешной установки gensim, как указано в: https://radimrehurek.com/gensim/install.html . Я использовал файл колеса из...
710 просмотров
schedule 12.02.2023

Что представляет параметр размера в gensim doc2vec
В doc2vec функции есть параметр size . Я понимаю, что size - это размер выходного вектора, и если size=400 , он захватит контент лучше, чем если бы size=100 . Однако я не понимаю, что означает size ? Означает ли это, как далеко...
581 просмотров
schedule 08.07.2022

Выберите между скип-граммой и моделью CBOW для обучения word2Vec в gensim.
Можно ли выбирать между моделями Skip-gram и CBOW в Gensim при обучении модели Word2Vec ?
5556 просмотров
schedule 07.07.2022

Word2Vec: использование Gensim и набора данных Google-News - очень медленное время выполнения
Код написан на питоне. Я загрузил бинарную модель в gensim на python и использовал параметр «init_sims», чтобы ускорить выполнение. Операционная система - OS X. На ее загрузку уходит почти 50-60 секунд. И эквивалентное время, чтобы найти...
2238 просмотров
schedule 05.03.2022

Модель Gensim Word2Vec: размеры выреза
У меня есть обученные модели word2vec в geinsim с 300 измерениями, и я хотел бы сократить размеры до 100 (просто удалить последние 200 измерений). Каков самый простой и эффективный способ использования python?
913 просмотров
schedule 24.04.2023

В чем разница между gensim LabeledSentence и TaggedDocument
Пожалуйста, помогите мне понять разницу между тем, как работает TaggedDocument и LabeledSentence из gensim . Моя конечная цель - классификация текста с использованием модели Doc2Vec и любого классификатора. Я читаю этот блог ! class...
3787 просмотров