Публикации по теме 'fasttext'


Хитрые дела №1. Определение языка
Отказ от ответственности: «TrickyCases» - это серия сообщений с довольно короткими фрагментами кода, полезными в повседневной практике машинного обучения. Здесь вы можете найти то, что искали бы в StackOverflow через несколько дней. Вы не всегда можете предположить, что работаете с английскими текстами, даже если первые 5 записей фрейма данных содержат только образцы этого языка. Особенно при работе с краудсорсингом или данными, полученными с веб-страниц. Чтобы избежать догадок,..

Вопросы по теме 'fasttext'

Загрузите модель fasttext быстрее за счет исключения определенного словаря
Загрузка предварительно обученных векторов слов в формате fasttext, выпущенных Facebook Research, занимает очень много времени на локальном компьютере, что мне нравится так: model = fs.load_word2vec_format('wiki.en.vec') print(model['test']) #...
886 просмотров

Рассчитать точность для классификации с несколькими метками с помощью FastText
У меня есть задача классификации нескольких меток с FastText. Я должен вычислить для него матрицу путаницы. Я уже решил задачу по вычислению CM для одной этикетки. Это скрипт Python для него: import argparse import numpy as np from...
1169 просмотров

Как преобразовать модель gensim Word2Vec в модель FastText?
У меня есть модель Word2Vec, которая была обучена на огромном корпусе. При использовании этой модели для приложения нейронной сети я наткнулся на довольно много слов «вне словарного запаса». Теперь мне нужно найти вложения слов для этих слов "вне...
2299 просмотров
schedule 29.03.2023

как изменить параметры api fasttext в скрипте python
У нас есть команды fasttext для запуска в командной строке. Я клонировал репозиторий github, и, например, чтобы изменить параметры сети для контролируемого обучения в используемой мной команде, как ./fasttext supervised -input...
1157 просмотров
schedule 26.12.2022

рассчитать ближайший документ с помощью fasttext или word2vec
У меня небольшая система около 1000 документов. Для каждого документа я хотел бы показать ссылки на X «самых похожих» документов. Однако документы никак не помечены, так что это был бы неконтролируемый метод. Кажется, что fasttext был бы...
1408 просмотров

Могу ли я токенизировать с помощью spacy, а затем извлекать векторы для этого токена, используя предварительно обученные вложения слов fastext
Я токенизирую свой текстовый корпус на немецком языке, используя немецкую модель Spacy. Поскольку в настоящее время в spacy есть только небольшая немецкая модель, я не могу извлечь векторы слов, используя сам spacy. Итак, я использую предварительно...
527 просмотров
schedule 19.04.2022

Вложения слов OOV (Out Of Vocabulary) для Fasttex в средах с низким ОЗУ
Есть ли способ получить векторы для слов OOV (Out Of Vocabulary) с помощью fasttext, но без загрузки всех вложений в память? Обычно я работаю в средах с низким ОЗУ (‹10 ГБ ОЗУ), поэтому загрузить модель на 7 ГБ в память просто невозможно. Чтобы...
591 просмотров

FastText встраивает векторы предложений?
Я хотел понять, как создаются векторы fastText для предложений. Согласно этому проблеме 309 , векторы для предложений получаются путем усреднения векторов для слов. Чтобы убедиться в этом, я написал следующий скрипт: import numpy as np import...
8356 просмотров
schedule 05.07.2022

Как я могу поддерживать временный словарь в приложении pyspark?
Я хочу использовать предварительно обученную модель встраивания (fasttext) в приложении pyspark. Поэтому, если я транслирую файл (.bin), возникает следующее исключение: Traceback (последний вызов последний): cPickle.PicklingError: Could not...
538 просмотров

Модель бункера fasttext для Facebook UnicodeDecodeError
Я загрузил предварительно обученный векторный файл слов (.bin) из facebook ( https://fasttext.cc/docs/en/crawl-vectors.html ) Однако, когда я попытался использовать эту модель, произошла ошибка. from gensim.models import FastText fasttext_model =...
1169 просмотров
schedule 28.04.2022

Почему встраивание слова FastText может генерировать представление слова из другого языка?
Недавно я обучил встраиванию слов FastText из sentiment140 , чтобы получить представление для английских слов. Однако сегодня просто для пробного использования я запускаю модуль FastText на нескольких китайских словах, например: import...
721 просмотров

fasttext: есть ли способ экспортировать нграммы?
Я новичок в DL и NLP и недавно начал использовать предварительно обученную модель встраивания fastText (cc.en.300.bin) через gensim. Я хотел бы иметь возможность самостоятельно вычислять векторы для слов вне словарного запаса, разбивая слово на...
1735 просмотров
schedule 09.08.2022

ошибка fasttext TypeError: supervised () получил неожиданный аргумент ключевого слова 'pretrainedVectors'
Я пытаюсь добавить предварительно обученные векторы в обучающую модель с помощью fasttext и получаю указанную ниже ошибку. Код написан на Python с использованием fasttext 0.8.3. Я думал, что с помощью fasttext вы можете добавить предварительно...
518 просмотров
schedule 29.12.2023

Gensim most_similar () с векторами слов Fasttext возвращает бесполезные / бессмысленные слова
Я использую Gensim с векторами Fasttext Word для возврата похожих слов. Это мой код: import gensim model = gensim.models.KeyedVectors.load_word2vec_format('cc.it.300.vec') words = model.most_similar(positive=['sole'],topn=10) print(words)...
1749 просмотров
schedule 04.07.2023

Как найти ближайших соседей в fasttext для моделей неконтролируемого обучения (cbow, skipgram)?
Примеры (относящиеся к представлениям слов) на официальном веб-сайте fasttext (fasttext.cc) показывают, что можно вычислить ближайших соседей по векторам, полученным с помощью cbow (или модели пропуска грамм) (короче говоря, на моделях обучения без...
3192 просмотров

Fasttext - Классификация названий цветов - Получение '‹/s›' как model.words
В настоящее время я работаю над слоем перевода, чтобы перевести множество уникальных названий цветов в общее название цвета. Например, КРАСНЫЙ МЕТАЛЛИЧЕСКИЙ будет КРАСНЫМ, а ТЕМНО-СИНИЙ - СИНИМ. У меня есть список цветов из источника, который я...
329 просмотров
schedule 14.10.2022

Не могу обучаться из текстового файла в fasttext. Получение ValueError: пустой словарь
Я пытаюсь создать встраивание слов fasttext , используя следующий код. import fasttext from os import path txt_path = path.join("/home/ccse/FastText_embeddings", "train.txt") model = fasttext.train_unsupervised(txt_path, model='cbow') здесь...
373 просмотров
schedule 03.05.2022

Проверка орфографии с использованием модели fastText?
Итак, я использую fastText из его репозитория GitHub и задаюсь вопросом, есть ли у него сборка -in команда проверки орфографии. Если да, то как мне их использовать? и могу ли я получить полную документацию по fastText , потому что, как и в...
300 просмотров
schedule 10.01.2023

Как предварительно обученный FastText обрабатывает многословные запросы?
Использование предварительно обученной модели: import fasttext.util fasttext.util.download_model('en', if_exists='ignore') # English ft = fasttext.load_model('cc.en.300.bin') Проверяя ft.words , в нем нет записей с пробелами или _, но если я...
79 просмотров
schedule 31.01.2024

Голландская предварительно обученная модель не работает в gensim
При попытке загрузить модель fasttext (cc.nl.300.bin) в gensim я получаю следующую ошибку: !wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.nl.300.bin.gz !gunzip cc.nl.300.bin.gz model =...
31 просмотров
schedule 24.06.2023