Статьи по тематике n-gram

Вопросы по теме 'n-gram'

Я знаю, что есть много потоков с этим именем. У меня есть код для генерации ngrams. Но хотелось бы знать, можно ли его улучшить для повышения скорости при обработке тысяч строк? Пример строки = "abcdefghijkl1245ty789" public static String[]...

1274 просмотров

java performance n-gram

23.06.2023

Сортировка Google Ngram?

Насколько я понимаю, каждый файл в наборе данных Google Ngram содержит список ngrams, отсортированные в алфавитном порядке, а затем в числовом порядке по годам. Однако, если предположить, что данные представлены в формате UTF8 (что file говорит...

248 просмотров

node.js sorting n-gram

04.10.2022

Быстрая реализация символьных n-грамм для слова

Я написал следующий код для вычисления биграмм символов, и результат показан ниже. Мой вопрос: как мне получить вывод, исключающий последний символ (т.е. t)? и есть ли более быстрый и эффективный метод вычисления символьных n-грамм? b='student'...

21612 просмотров

python-2.7 n-gram

25.06.2023

Создавайте униграммы и биграммы из списка триграмм

Я ищу возможные способы просто сохранить частоты триграмм в памяти и вычислить частоты униграмм и биграмм на лету следующим образом: Дана триграмма u, v, w: count (v, w) = sum (., v, w) т.е. сумма по всем u Аналогично count (w) = sum (., W)...

923 просмотров

nlp speech-recognition n-gram

14.02.2024

Механизмы предсказания следующего слова — к какой ветви ИИ они относятся

Механизмы предсказания следующего слова или фразы, используемые в современных клавиатурах мобильных телефонов и планшетов, такие как swift key и XT9, которые предсказывают следующее слово, которое пользователь собирается ввести, на основе некоторого...

435 просмотров

machine-learning nlp artificial-intelligence prediction n-gram

15.05.2022

группировка всех именованных объектов в документе

Я хотел бы сгруппировать все именованные объекты в данном документе. Например, **Barack Hussein Obama** II is the 44th and current President of the United States, and the first African American to hold the office. Я не хочу использовать...

1584 просмотров

named-entity-recognition part-of-speech n-gram

06.07.2022

Как оценить вероятность ngram?

Я хочу построить языковую модель, в которой я хочу оценить вероятности ngram. Итак, мой вопрос: каковы наилучшие корпуса и инструменты, которые мы могли бы использовать для оценки вероятностей ngram? Благодарность

1378 просмотров

nlp stanford-nlp n-gram

14.10.2022

Как найти самые распространенные биграммы с помощью BigQuery?

Я хочу найти в своей таблице самые распространенные биграммы (пары слов). Как я могу сделать это с помощью BigQuery?

4540 просмотров

google-bigquery n-gram

29.12.2022

N-граммы из предложения [Lucene 4.9]

Я пытаюсь реализовать пример, который может генерировать n граммов из предложения (тот же вопрос задан здесь Генерация N-грамм из предложения ) с помощью последней версии Lucene (Lucene 4.9). Я нашел несколько примеров, но сделанных с предыдущими...

498 просмотров

java lucene sentence n-gram

23.09.2022

Создать диаграмму NGram из данных Solr с помощью черепицы?

Мне была поставлена задача создать Google, как представление/диаграмму Ngram набора данных. Диаграмма — это просто линейная диаграмма основных терминов (нграмм) с течением времени. У меня нет опыта работы с SOLR, но мне дали ядро, содержащее...

315 просмотров

graph visualization solr lucene n-gram

03.06.2023

Как искать в Google Ngrams устаревшие слова и фразы?

Я хотел бы написать приложение, которое ищет данные Google Ngram, чтобы найти слова и фразы, которые раньше были более популярны, на какой-то произвольный процент, в каком-то произвольном диапазоне лет, чем сейчас. Например:...

313 просмотров

google-api n-gram

04.05.2022

Каков наиболее эффективный способ хранения языковых моделей в приложениях НЛП?

Как они обычно хранят и обновляют языковые модели (например, модели N-грамм)? Какая структура является наиболее эффективным способом хранения этих моделей в базах данных?

1152 просмотров

nlp language-model n-gram

26.09.2022

Полиномиальная ошибка в Rapidminer при классификации n-грамм

Я пытаюсь классифицировать разные понятия в тексте, используя n-грамму. Мои данные обычно состоят из шести столбцов: Слово, которое нуждается в классификации Классификация Первое слово слева от 1) Второе слово слева от 1) Первое слово...

78 просмотров

svm n-gram concept libsvm rapidminer

18.05.2022

ValueError: недопустимая модель параметра для оценщика CountVectorizer при использовании параметров GridSearch

У меня есть конвейер sklearn, который выполняет классификацию текста с использованием двух типов функций: стандартные функции tfidf, созданные с помощью CountVectorizer () и TfidfTransformer () (TfidfVectorizer ()), и некоторые лингвистические...

4441 просмотров

python scikit-learn grid-search n-gram

06.03.2023

R Извлеките все слова из нескольких предложений и создайте частотную таблицу энграмм

Я пытаюсь построить алгоритм прогнозирования слов, используя простую модель отсрочки, но изо всех сил пытаюсь создать таблицу частот слов, чтобы создать вероятности выбора следующего слова. Мне нужно создать списки ngrams с их соответствующей...

274 просмотров

r list nlp rbind n-gram

27.11.2022

Предсказание следующего слова с text2vec в R

Я строю языковую модель в R, чтобы предсказать следующее слово в предложении на основе предыдущих слов. В настоящее время моя модель представляет собой простую модель ngram со сглаживанием Кнезера-Нея. Он предсказывает следующее слово, находя ngram...

2365 просмотров

r nlp n-gram text2vec

14.03.2023

Нахождение условной вероятности триграммы в python nltk

Я начал изучать NLTK и следую инструкциям здесь , где они находят условную вероятность, используя подобные биграммы. import nltk from nltk.corpus import brown cfreq_brown_2gram = nltk.ConditionalFreqDist(nltk.bigrams(brown.words())) Однако...

5476 просмотров

python nlp nltk n-gram

29.08.2022

Вычислить TCM на основе невзвешенного набора слов, используя text2vec в R?

Я пытаюсь вычислить матрицу совпадения терминов (или TCM) из корпуса, используя пакет text2vec в R (поскольку у него есть хороший параллельный бэкенд). Я следил за этим руководством , но при изучении некоторых игрушечных примеров я заметил, что...

415 просмотров

r nlp n-gram text2vec

28.04.2023

Классификация простого двоичного текста

Я ищу наиболее эффективный и простой способ классифицировать более 800 тысяч научных статей как релевантные (1) или нерелевантные (0) по отношению к определенному концептуальному пространству (здесь: обучение в отношении работы ). Данные:...

670 просмотров

nlp text-classification document-classification n-gram latent-semantic-indexing

02.02.2022

Как получить информацию о векторе терминов для всего индекса в эластичном поиске?, а не на уровне документа

Согласно документации эластичного поиска, https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-termvectors.html , векторы терминов можно применять только к документам. Есть ли способ применить его на уровне индекса. Мой вариант...

1822 просмотров

n-gram term-vectors

13.05.2022

Вопросы по теме 'n-gram'

Похожие вопросы