Публикации по теме 'fasttext'
Хитрые дела №1. Определение языка
Отказ от ответственности: «TrickyCases» - это серия сообщений с довольно короткими фрагментами кода, полезными в повседневной практике машинного обучения. Здесь вы можете найти то, что искали бы в StackOverflow через несколько дней.
Вы не всегда можете предположить, что работаете с английскими текстами, даже если первые 5 записей фрейма данных содержат только образцы этого языка. Особенно при работе с краудсорсингом или данными, полученными с веб-страниц. Чтобы избежать догадок,..
Вопросы по теме 'fasttext'
Загрузите модель fasttext быстрее за счет исключения определенного словаря
Загрузка предварительно обученных векторов слов в формате fasttext, выпущенных Facebook Research, занимает очень много времени на локальном компьютере, что мне нравится так:
model = fs.load_word2vec_format('wiki.en.vec')
print(model['test']) #...
886 просмотров
schedule
31.10.2022
Рассчитать точность для классификации с несколькими метками с помощью FastText
У меня есть задача классификации нескольких меток с FastText. Я должен вычислить для него матрицу путаницы. Я уже решил задачу по вычислению CM для одной этикетки. Это скрипт Python для него:
import argparse
import numpy as np
from...
1169 просмотров
schedule
18.05.2023
Как преобразовать модель gensim Word2Vec в модель FastText?
У меня есть модель Word2Vec, которая была обучена на огромном корпусе. При использовании этой модели для приложения нейронной сети я наткнулся на довольно много слов «вне словарного запаса». Теперь мне нужно найти вложения слов для этих слов "вне...
2299 просмотров
schedule
29.03.2023
как изменить параметры api fasttext в скрипте python
У нас есть команды fasttext для запуска в командной строке.
Я клонировал репозиторий github, и, например, чтобы изменить параметры сети для контролируемого обучения в используемой мной команде, как
./fasttext supervised -input...
1157 просмотров
schedule
26.12.2022
рассчитать ближайший документ с помощью fasttext или word2vec
У меня небольшая система около 1000 документов. Для каждого документа я хотел бы показать ссылки на X «самых похожих» документов.
Однако документы никак не помечены, так что это был бы неконтролируемый метод.
Кажется, что fasttext был бы...
1408 просмотров
schedule
13.11.2022
Могу ли я токенизировать с помощью spacy, а затем извлекать векторы для этого токена, используя предварительно обученные вложения слов fastext
Я токенизирую свой текстовый корпус на немецком языке, используя немецкую модель Spacy. Поскольку в настоящее время в spacy есть только небольшая немецкая модель, я не могу извлечь векторы слов, используя сам spacy. Итак, я использую предварительно...
527 просмотров
schedule
19.04.2022
Вложения слов OOV (Out Of Vocabulary) для Fasttex в средах с низким ОЗУ
Есть ли способ получить векторы для слов OOV (Out Of Vocabulary) с помощью fasttext, но без загрузки всех вложений в память?
Обычно я работаю в средах с низким ОЗУ (‹10 ГБ ОЗУ), поэтому загрузить модель на 7 ГБ в память просто невозможно. Чтобы...
591 просмотров
schedule
30.03.2023
FastText встраивает векторы предложений?
Я хотел понять, как создаются векторы fastText для предложений. Согласно этому проблеме 309 , векторы для предложений получаются путем усреднения векторов для слов.
Чтобы убедиться в этом, я написал следующий скрипт:
import numpy as np
import...
8356 просмотров
schedule
05.07.2022
Как я могу поддерживать временный словарь в приложении pyspark?
Я хочу использовать предварительно обученную модель встраивания (fasttext) в приложении pyspark.
Поэтому, если я транслирую файл (.bin), возникает следующее исключение: Traceback (последний вызов последний):
cPickle.PicklingError: Could not...
538 просмотров
schedule
17.01.2023
Модель бункера fasttext для Facebook UnicodeDecodeError
Я загрузил предварительно обученный векторный файл слов (.bin) из facebook ( https://fasttext.cc/docs/en/crawl-vectors.html ) Однако, когда я попытался использовать эту модель, произошла ошибка.
from gensim.models import FastText
fasttext_model =...
1169 просмотров
schedule
28.04.2022
Почему встраивание слова FastText может генерировать представление слова из другого языка?
Недавно я обучил встраиванию слов FastText из sentiment140 , чтобы получить представление для английских слов. Однако сегодня просто для пробного использования я запускаю модуль FastText на нескольких китайских словах, например:
import...
721 просмотров
schedule
24.03.2022
fasttext: есть ли способ экспортировать нграммы?
Я новичок в DL и NLP и недавно начал использовать предварительно обученную модель встраивания fastText (cc.en.300.bin) через gensim.
Я хотел бы иметь возможность самостоятельно вычислять векторы для слов вне словарного запаса, разбивая слово на...
1735 просмотров
schedule
09.08.2022
ошибка fasttext TypeError: supervised () получил неожиданный аргумент ключевого слова 'pretrainedVectors'
Я пытаюсь добавить предварительно обученные векторы в обучающую модель с помощью fasttext и получаю указанную ниже ошибку. Код написан на Python с использованием fasttext 0.8.3.
Я думал, что с помощью fasttext вы можете добавить предварительно...
518 просмотров
schedule
29.12.2023
Gensim most_similar () с векторами слов Fasttext возвращает бесполезные / бессмысленные слова
Я использую Gensim с векторами Fasttext Word для возврата похожих слов.
Это мой код:
import gensim
model = gensim.models.KeyedVectors.load_word2vec_format('cc.it.300.vec')
words = model.most_similar(positive=['sole'],topn=10)
print(words)...
1749 просмотров
schedule
04.07.2023
Как найти ближайших соседей в fasttext для моделей неконтролируемого обучения (cbow, skipgram)?
Примеры (относящиеся к представлениям слов) на официальном веб-сайте fasttext (fasttext.cc) показывают, что можно вычислить ближайших соседей по векторам, полученным с помощью cbow (или модели пропуска грамм) (короче говоря, на моделях обучения без...
3192 просмотров
schedule
27.05.2022
Fasttext - Классификация названий цветов - Получение '‹/s›' как model.words
В настоящее время я работаю над слоем перевода, чтобы перевести множество уникальных названий цветов в общее название цвета. Например, КРАСНЫЙ МЕТАЛЛИЧЕСКИЙ будет КРАСНЫМ, а ТЕМНО-СИНИЙ - СИНИМ. У меня есть список цветов из источника, который я...
329 просмотров
schedule
14.10.2022
Не могу обучаться из текстового файла в fasttext. Получение ValueError: пустой словарь
Я пытаюсь создать встраивание слов fasttext , используя следующий код.
import fasttext
from os import path
txt_path = path.join("/home/ccse/FastText_embeddings", "train.txt")
model = fasttext.train_unsupervised(txt_path, model='cbow')
здесь...
373 просмотров
schedule
03.05.2022
Проверка орфографии с использованием модели fastText?
Итак, я использую fastText из его репозитория GitHub и задаюсь вопросом, есть ли у него сборка -in команда проверки орфографии.
Если да, то как мне их использовать? и могу ли я получить полную документацию по fastText , потому что, как и в...
300 просмотров
schedule
10.01.2023
Как предварительно обученный FastText обрабатывает многословные запросы?
Использование предварительно обученной модели:
import fasttext.util
fasttext.util.download_model('en', if_exists='ignore') # English
ft = fasttext.load_model('cc.en.300.bin')
Проверяя ft.words , в нем нет записей с пробелами или _, но если я...
79 просмотров
schedule
31.01.2024
Голландская предварительно обученная модель не работает в gensim
При попытке загрузить модель fasttext (cc.nl.300.bin) в gensim я получаю следующую ошибку:
!wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.nl.300.bin.gz
!gunzip cc.nl.300.bin.gz
model =...
31 просмотров
schedule
24.06.2023