Вопросы по теме 'n-gram'

способ улучшить генерацию ngram?
Я знаю, что есть много потоков с этим именем. У меня есть код для генерации ngrams. Но хотелось бы знать, можно ли его улучшить для повышения скорости при обработке тысяч строк? Пример строки = "abcdefghijkl1245ty789" public static String[]...
1274 просмотров
schedule 23.06.2023

Сортировка Google Ngram?
Насколько я понимаю, каждый файл в наборе данных Google Ngram содержит список ngrams, отсортированные в алфавитном порядке, а затем в числовом порядке по годам. Однако, если предположить, что данные представлены в формате UTF8 (что file говорит...
248 просмотров
schedule 04.10.2022

Быстрая реализация символьных n-грамм для слова
Я написал следующий код для вычисления биграмм символов, и результат показан ниже. Мой вопрос: как мне получить вывод, исключающий последний символ (т.е. t)? и есть ли более быстрый и эффективный метод вычисления символьных n-грамм? b='student'...
21612 просмотров
schedule 25.06.2023

Создавайте униграммы и биграммы из списка триграмм
Я ищу возможные способы просто сохранить частоты триграмм в памяти и вычислить частоты униграмм и биграмм на лету следующим образом: Дана триграмма u, v, w: count (v, w) = sum (., v, w) т.е. сумма по всем u Аналогично count (w) = sum (., W)...
923 просмотров
schedule 14.02.2024

Механизмы предсказания следующего слова — к какой ветви ИИ они относятся
Механизмы предсказания следующего слова или фразы, используемые в современных клавиатурах мобильных телефонов и планшетов, такие как swift key и XT9, которые предсказывают следующее слово, которое пользователь собирается ввести, на основе некоторого...
435 просмотров

группировка всех именованных объектов в документе
Я хотел бы сгруппировать все именованные объекты в данном документе. Например, **Barack Hussein Obama** II is the 44th and current President of the United States, and the first African American to hold the office. Я не хочу использовать...
1584 просмотров

Как оценить вероятность ngram?
Я хочу построить языковую модель, в которой я хочу оценить вероятности ngram. Итак, мой вопрос: каковы наилучшие корпуса и инструменты, которые мы могли бы использовать для оценки вероятностей ngram? Благодарность
1378 просмотров
schedule 14.10.2022

Как найти самые распространенные биграммы с помощью BigQuery?
Я хочу найти в своей таблице самые распространенные биграммы (пары слов). Как я могу сделать это с помощью BigQuery?
4540 просмотров
schedule 29.12.2022

N-граммы из предложения [Lucene 4.9]
Я пытаюсь реализовать пример, который может генерировать n граммов из предложения (тот же вопрос задан здесь Генерация N-грамм из предложения ) с помощью последней версии Lucene (Lucene 4.9). Я нашел несколько примеров, но сделанных с предыдущими...
498 просмотров
schedule 23.09.2022

Создать диаграмму NGram из данных Solr с помощью черепицы?
Мне была поставлена ​​задача создать Google, как представление/диаграмму Ngram набора данных. Диаграмма — это просто линейная диаграмма основных терминов (нграмм) с течением времени. У меня нет опыта работы с SOLR, но мне дали ядро, содержащее...
315 просмотров
schedule 03.06.2023

Как искать в Google Ngrams устаревшие слова и фразы?
Я хотел бы написать приложение, которое ищет данные Google Ngram, чтобы найти слова и фразы, которые раньше были более популярны, на какой-то произвольный процент, в каком-то произвольном диапазоне лет, чем сейчас. Например:...
313 просмотров
schedule 04.05.2022

Каков наиболее эффективный способ хранения языковых моделей в приложениях НЛП?
Как они обычно хранят и обновляют языковые модели (например, модели N-грамм)? Какая структура является наиболее эффективным способом хранения этих моделей в базах данных?
1152 просмотров
schedule 26.09.2022

Полиномиальная ошибка в Rapidminer при классификации n-грамм
Я пытаюсь классифицировать разные понятия в тексте, используя n-грамму. Мои данные обычно состоят из шести столбцов: Слово, которое нуждается в классификации Классификация Первое слово слева от 1) Второе слово слева от 1) Первое слово...
78 просмотров
schedule 18.05.2022

ValueError: недопустимая модель параметра для оценщика CountVectorizer при использовании параметров GridSearch
У меня есть конвейер sklearn, который выполняет классификацию текста с использованием двух типов функций: стандартные функции tfidf, созданные с помощью CountVectorizer () и TfidfTransformer () (TfidfVectorizer ()), и некоторые лингвистические...
4441 просмотров
schedule 06.03.2023

R Извлеките все слова из нескольких предложений и создайте частотную таблицу энграмм
Я пытаюсь построить алгоритм прогнозирования слов, используя простую модель отсрочки, но изо всех сил пытаюсь создать таблицу частот слов, чтобы создать вероятности выбора следующего слова. Мне нужно создать списки ngrams с их соответствующей...
274 просмотров
schedule 27.11.2022

Предсказание следующего слова с text2vec в R
Я строю языковую модель в R, чтобы предсказать следующее слово в предложении на основе предыдущих слов. В настоящее время моя модель представляет собой простую модель ngram со сглаживанием Кнезера-Нея. Он предсказывает следующее слово, находя ngram...
2365 просмотров
schedule 14.03.2023

Нахождение условной вероятности триграммы в python nltk
Я начал изучать NLTK и следую инструкциям здесь , где они находят условную вероятность, используя подобные биграммы. import nltk from nltk.corpus import brown cfreq_brown_2gram = nltk.ConditionalFreqDist(nltk.bigrams(brown.words())) Однако...
5476 просмотров
schedule 29.08.2022

Вычислить TCM на основе невзвешенного набора слов, используя text2vec в R?
Я пытаюсь вычислить матрицу совпадения терминов (или TCM) из корпуса, используя пакет text2vec в R (поскольку у него есть хороший параллельный бэкенд). Я следил за этим руководством , но при изучении некоторых игрушечных примеров я заметил, что...
415 просмотров
schedule 28.04.2023

Классификация простого двоичного текста
Я ищу наиболее эффективный и простой способ классифицировать более 800 тысяч научных статей как релевантные (1) или нерелевантные (0) по отношению к определенному концептуальному пространству (здесь: обучение в отношении работы ). Данные:...
670 просмотров

Как получить информацию о векторе терминов для всего индекса в эластичном поиске?, а не на уровне документа
Согласно документации эластичного поиска, https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-termvectors.html , векторы терминов можно применять только к документам. Есть ли способ применить его на уровне индекса. Мой вариант...
1822 просмотров
schedule 13.05.2022