Вопросы по теме 'tm'

Как я могу извлечь определенный контент из файла HTML в формат TXT?
Итак, моя проблема в том, что я извлек много сообщений с форума в отдельные текстовые файлы, которые теперь находятся на моем жестком диске. Каждый файл содержит информацию, которую я хотел бы извлечь, часть которой я уже понял, как извлечь....
540 просмотров
schedule 13.05.2022

Поиск орфографических ошибок слова в векторе символов с помощью R - обратного средства проверки орфографии
Я занимаюсь текстовым анализом большой базы данных для создания индикаторных переменных, которые указывают на появление определенных фраз в поле комментариев наблюдения. Комментарии были введены техническими специалистами, поэтому используемые...
3138 просмотров
schedule 17.04.2022

R tm removeWords стоп-слова не удаляет стоп-слова
Я использую пакет R tm и обнаружил, что почти ни одна из tm_map функций, удаляющих элементы текста, у меня не работает. Под «работой» я подразумеваю, например, что я запущу: d <- tm_map(d, removeWords, stopwords('english')) но потом,...
18802 просмотров
schedule 20.03.2022

readPDF (пакет tm) в R
Я попытался прочитать какой-то онлайн-документ в формате PDF в R. Я использовал функцию readRDF . Мой сценарий выглядит так safex <-...
4592 просмотров
schedule 31.03.2022

Ошибка при попытке прочитать PDF с помощью readPDF из пакета tm
(Windows 7/R версии 3.0.1) Ниже команды и полученная ошибка: > library(tm) > pdf <- readPDF(PdftotextOptions = "-layout") > dat <- pdf(elem = list(uri = "17214.pdf"), language="de", id="id1") Error in file(con, "r") : cannot...
5409 просмотров
r tm
schedule 25.01.2023

Сочетание качественных пользовательских данных с результатами анализа текста
У меня есть пары данных отзывов клиентов в CSV, обозначающие, рекомендовал ли клиент полученную услугу (1 или 0), «rec» и связанный комментарий «comment». Я пытаюсь сравнить отзывы клиентов между теми, кто рекомендовал услугу, и теми, кто этого не...
144 просмотров
schedule 25.10.2022

Удаление неанглоязычного текста из Корпуса в R с помощью tm()
Я использую tm() и wordcloud() для некоторого базового интеллектуального анализа данных в R, но сталкиваюсь с трудностями, потому что в моем наборе данных есть неанглийские символы (хотя я пытался отфильтровать другие языки на основе фоновых...
28447 просмотров
r tm
schedule 09.08.2022

Twitter Mining с использованием R (twitteR + tm): ошибка при более низкой конверсии
У меня возникли проблемы с работой с данными твиттера, которые я извлек, используя CRAN-версию пакета twitteR. В частности, более низкая конверсия из пакета tm. Я использую этот пример Это то, что я сейчас делаю: #oauth handshake and so...
951 просмотров
schedule 13.12.2022

Создание матрицы термодокумента из файла Excel с использованием R
Для анализа настроений с использованием веб-майнинга плагина tm я должен создать TermDocumentMatrix, как показано в примере кода ниже: http://www.inside-r.org/packages/cran/tm/docs/tm_tag_score У меня есть файл csv с заголовками статей в...
6288 просмотров
schedule 15.02.2024

Построение матрицы терминологического документа
У меня есть CSV-файл, заголовок которого: DATE Alert и OriginatingAddress. Как мне построить матрицу термодокумента на основе двух столбцов: DATE и Alert. В строке будет предупреждение, а в столбце - день. Запись указывает количество появлений...
442 просмотров
r tm
schedule 28.06.2023

привязать вектор символов к списку в кадре данных
У меня есть список URL-адресов, и я извлек содержимое следующим образом: library(httr) link="http://www.workerspower.net/disposable-workers-the-real-price-of-sweat-shop-labor" get.link=GET(link) get.content=content(x2,as="text")...
254 просмотров
schedule 06.09.2022

Читать текст юникода с помощью tm в R?
Я работаю с текстом в формате Unicode в R, используя пакет интеллектуального анализа текста tm. Я бы хотел, чтобы символы Юникода не уничтожались, когда они считываются в программу, но я не могу найти отсутствующее ключевое слово. Вот пример текста...
1157 просмотров
schedule 24.07.2022

объединить два data.frames и заменить значения определенных столбцов df1 на значения df2
У меня есть два data.frames, которые я хочу объединить и заменить значения определенных столбцов df1 значениями df2. в этом рабочем примере всего 3 столбца. но в исходных данных в окончательном data.frame должно остаться около 20 столбцов. NO...
3102 просмотров
schedule 10.04.2022

R: найти наиболее часто встречающуюся группу слов в корпусе
Есть ли простой способ, как найти не только наиболее часто встречающиеся термины, но и выражения (то есть более одного слова, группы слов) в текстовом корпусе в R? Используя пакет tm, я могу найти такие наиболее часто встречающиеся термины: tdm...
8545 просмотров
schedule 25.03.2023

DocumentTermMatrix завершается со странной ошибкой только тогда, когда # терминов › 3000
Мой код ниже работает нормально, если я не использую создание DocumentTermMatrix с более чем 3000 терминов. Эта строка: movie_dict <- findFreqTerms(movie_dtm_train, 8) movie_dtm_hiFq_train <- DocumentTermMatrix(movie_corpus_train,...
1996 просмотров

Анализ текста с использованием LDA и tm в R
Привет, ребята, у меня небольшие проблемы с проведением LDA, потому что по какой-то причине, когда я готов провести анализ, я получаю ошибки. Я сделаю все возможное, чтобы выполнить то, что я делаю, к сожалению, я не смогу предоставить данные, потому...
1816 просмотров
r lda tm
schedule 15.09.2022

Как дать пробел между двумя словами после удаления текста пунктуации и цифр в R
Мы можем видеть, что в приведенном ниже примере после удаления числа 3054 и знаков препинания - в заданной строке "BG3054-suhas B-DC chr 23.7-22.8.13" вывод будет объединен как bgsuhas , но мне нужен пробел между этими двумя словами как bg suhas ....
2807 просмотров
schedule 03.03.2023

Переименование терминов в матрице терминологического документа
Я только что создал матрицу терминологического документа в R, но теперь я хочу переименовать некоторые термины. Например здесь vector <- "This is a test." library(tm) doc.vec <- VectorSource(vector) doc.corpus <- Corpus(doc.vec) TDM...
1383 просмотров
schedule 16.06.2023

Используйте функцию корпуса tm с большими данными в R
Я пытаюсь выполнять анализ больших данных в R с помощью tm . Я часто сталкиваюсь с проблемами памяти (например, can not allocation vector of size.... ) и использую установленные методы устранения этих проблем, такие как используя 64-битный...
3336 просмотров
schedule 07.12.2022

StemDocument R интеллектуальный анализ текста
Мои данные представляют собой текстовый файл и выглядят следующим образом: слова number_doc обзор 1 клиент 1 магазин 1 маржа 1 цена 2 акции 2 экономика 2 Номера документов отсортированы (от наименьшего к наибольшему). Теперь я хочу для...
4300 просмотров
schedule 29.01.2023