Вопросы по теме 'term-document-matrix'

Как эффективно вычислить сходство между документами в потоке документов
Я собираю текстовые документы (в Node.js), где один документ i представлен в виде списка слов. Каков эффективный способ вычисления сходства между этими документами, принимая во внимание, что новые документы поступают как своего рода поток...
1312 просмотров

список частот слов с использованием R
Я использую пакет tm для анализа текста. Моя проблема заключается в создании списка слов и их частоты, связанных с одним и тем же library(tm) library(RWeka) txt <- read.csv("HW.csv",header=T) df <- do.call("rbind", lapply(txt,...
52206 просмотров

Создание матрицы термодокумента из файла Excel с использованием R
Для анализа настроений с использованием веб-майнинга плагина tm я должен создать TermDocumentMatrix, как показано в примере кода ниже: http://www.inside-r.org/packages/cran/tm/docs/tm_tag_score У меня есть файл csv с заголовками статей в...
6288 просмотров
schedule 15.02.2024

R: Поиск частоты на термин Предупреждающее сообщение
Я пытаюсь найти частоту каждого термина в речи Мартина Лютера Кинга «У меня есть мечта». Я преобразовал все прописные буквы в строчные и удалил все стоп-слова. У меня есть текст в файле .txt, поэтому я не могу отобразить его здесь. Код, который...
97 просмотров
schedule 08.06.2022

R: TermDocumentMatrix - Ошибка при создании
Я пытаюсь получить данные из твиттера и создать облако слов, но мой код выдает ошибку при создании TermDocumentMatrix. Мой код, как показано ниже twitter_search_data <- searchTwitter(searchString = text_to_search...
682 просмотров
schedule 28.06.2023

TermDocumentMatrix в R - создано только 1 грамм
Я только начал с пакета tm в R и не могу решить проблему. Несмотря на то, что мои функции токенизатора работают правильно: uniTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=1, max=1)) biTokenizer <- function(x)...
110 просмотров
schedule 16.06.2022