Вопросы по теме 'tm'
Как я могу извлечь определенный контент из файла HTML в формат TXT?
Итак, моя проблема в том, что я извлек много сообщений с форума в отдельные текстовые файлы, которые теперь находятся на моем жестком диске. Каждый файл содержит информацию, которую я хотел бы извлечь, часть которой я уже понял, как извлечь....
540 просмотров
schedule
13.05.2022
Поиск орфографических ошибок слова в векторе символов с помощью R - обратного средства проверки орфографии
Я занимаюсь текстовым анализом большой базы данных для создания индикаторных переменных, которые указывают на появление определенных фраз в поле комментариев наблюдения. Комментарии были введены техническими специалистами, поэтому используемые...
3138 просмотров
schedule
17.04.2022
R tm removeWords стоп-слова не удаляет стоп-слова
Я использую пакет R tm и обнаружил, что почти ни одна из tm_map функций, удаляющих элементы текста, у меня не работает.
Под «работой» я подразумеваю, например, что я запущу:
d <- tm_map(d, removeWords, stopwords('english'))
но потом,...
18802 просмотров
schedule
20.03.2022
readPDF (пакет tm) в R
Я попытался прочитать какой-то онлайн-документ в формате PDF в R. Я использовал функцию readRDF . Мой сценарий выглядит так
safex <-...
4592 просмотров
schedule
31.03.2022
Ошибка при попытке прочитать PDF с помощью readPDF из пакета tm
(Windows 7/R версии 3.0.1)
Ниже команды и полученная ошибка:
> library(tm)
> pdf <- readPDF(PdftotextOptions = "-layout")
> dat <- pdf(elem = list(uri = "17214.pdf"), language="de", id="id1")
Error in file(con, "r") : cannot...
5409 просмотров
schedule
25.01.2023
Сочетание качественных пользовательских данных с результатами анализа текста
У меня есть пары данных отзывов клиентов в CSV, обозначающие, рекомендовал ли клиент полученную услугу (1 или 0), «rec» и связанный комментарий «comment». Я пытаюсь сравнить отзывы клиентов между теми, кто рекомендовал услугу, и теми, кто этого не...
144 просмотров
schedule
25.10.2022
Удаление неанглоязычного текста из Корпуса в R с помощью tm()
Я использую tm() и wordcloud() для некоторого базового интеллектуального анализа данных в R, но сталкиваюсь с трудностями, потому что в моем наборе данных есть неанглийские символы (хотя я пытался отфильтровать другие языки на основе фоновых...
28447 просмотров
schedule
09.08.2022
Twitter Mining с использованием R (twitteR + tm): ошибка при более низкой конверсии
У меня возникли проблемы с работой с данными твиттера, которые я извлек, используя CRAN-версию пакета twitteR. В частности, более низкая конверсия из пакета tm.
Я использую этот пример
Это то, что я сейчас делаю:
#oauth handshake and so...
951 просмотров
schedule
13.12.2022
Создание матрицы термодокумента из файла Excel с использованием R
Для анализа настроений с использованием веб-майнинга плагина tm я должен создать TermDocumentMatrix, как показано в примере кода ниже: http://www.inside-r.org/packages/cran/tm/docs/tm_tag_score
У меня есть файл csv с заголовками статей в...
6288 просмотров
schedule
15.02.2024
Построение матрицы терминологического документа
У меня есть CSV-файл, заголовок которого: DATE Alert и OriginatingAddress. Как мне построить матрицу термодокумента на основе двух столбцов: DATE и Alert. В строке будет предупреждение, а в столбце - день. Запись указывает количество появлений...
442 просмотров
schedule
28.06.2023
привязать вектор символов к списку в кадре данных
У меня есть список URL-адресов, и я извлек содержимое следующим образом:
library(httr)
link="http://www.workerspower.net/disposable-workers-the-real-price-of-sweat-shop-labor"
get.link=GET(link)
get.content=content(x2,as="text")...
254 просмотров
schedule
06.09.2022
Читать текст юникода с помощью tm в R?
Я работаю с текстом в формате Unicode в R, используя пакет интеллектуального анализа текста tm. Я бы хотел, чтобы символы Юникода не уничтожались, когда они считываются в программу, но я не могу найти отсутствующее ключевое слово. Вот пример текста...
1157 просмотров
schedule
24.07.2022
объединить два data.frames и заменить значения определенных столбцов df1 на значения df2
У меня есть два data.frames, которые я хочу объединить и заменить значения определенных столбцов df1 значениями df2. в этом рабочем примере всего 3 столбца. но в исходных данных в окончательном data.frame должно остаться около 20 столбцов.
NO...
3102 просмотров
schedule
10.04.2022
R: найти наиболее часто встречающуюся группу слов в корпусе
Есть ли простой способ, как найти не только наиболее часто встречающиеся термины, но и выражения (то есть более одного слова, группы слов) в текстовом корпусе в R?
Используя пакет tm, я могу найти такие наиболее часто встречающиеся термины:
tdm...
8545 просмотров
schedule
25.03.2023
DocumentTermMatrix завершается со странной ошибкой только тогда, когда # терминов › 3000
Мой код ниже работает нормально, если я не использую создание DocumentTermMatrix с более чем 3000 терминов. Эта строка:
movie_dict <- findFreqTerms(movie_dtm_train, 8)
movie_dtm_hiFq_train <- DocumentTermMatrix(movie_corpus_train,...
1996 просмотров
schedule
04.11.2022
Анализ текста с использованием LDA и tm в R
Привет, ребята, у меня небольшие проблемы с проведением LDA, потому что по какой-то причине, когда я готов провести анализ, я получаю ошибки. Я сделаю все возможное, чтобы выполнить то, что я делаю, к сожалению, я не смогу предоставить данные, потому...
1816 просмотров
schedule
15.09.2022
Как дать пробел между двумя словами после удаления текста пунктуации и цифр в R
Мы можем видеть, что в приведенном ниже примере после удаления числа 3054 и знаков препинания - в заданной строке "BG3054-suhas B-DC chr 23.7-22.8.13" вывод будет объединен как bgsuhas , но мне нужен пробел между этими двумя словами как bg suhas ....
2807 просмотров
schedule
03.03.2023
Переименование терминов в матрице терминологического документа
Я только что создал матрицу терминологического документа в R, но теперь я хочу переименовать некоторые термины.
Например здесь
vector <- "This is a test."
library(tm)
doc.vec <- VectorSource(vector)
doc.corpus <- Corpus(doc.vec)
TDM...
1383 просмотров
schedule
16.06.2023
Используйте функцию корпуса tm с большими данными в R
Я пытаюсь выполнять анализ больших данных в R с помощью tm .
Я часто сталкиваюсь с проблемами памяти (например, can not allocation vector of size.... ) и использую установленные методы устранения этих проблем, такие как
используя 64-битный...
3336 просмотров
schedule
07.12.2022
StemDocument R интеллектуальный анализ текста
Мои данные представляют собой текстовый файл и выглядят следующим образом: слова number_doc обзор 1 клиент 1 магазин 1 маржа 1 цена 2 акции 2 экономика 2
Номера документов отсортированы (от наименьшего к наибольшему). Теперь я хочу для...
4300 просмотров
schedule
29.01.2023