Статьи по тематике tm

Вопросы по теме 'tm'

Как я могу извлечь определенный контент из файла HTML в формат TXT?

Итак, моя проблема в том, что я извлек много сообщений с форума в отдельные текстовые файлы, которые теперь находятся на моем жестком диске. Каждый файл содержит информацию, которую я хотел бы извлечь, часть которой я уже понял, как извлечь....

540 просмотров

13.05.2022

Поиск орфографических ошибок слова в векторе символов с помощью R - обратного средства проверки орфографии

Я занимаюсь текстовым анализом большой базы данных для создания индикаторных переменных, которые указывают на появление определенных фраз в поле комментариев наблюдения. Комментарии были введены техническими специалистами, поэтому используемые...

3138 просмотров

r text-mining spell-checking tm

17.04.2022

R tm removeWords стоп-слова не удаляет стоп-слова

Я использую пакет R tm и обнаружил, что почти ни одна из tm_map функций, удаляющих элементы текста, у меня не работает. Под «работой» я подразумеваю, например, что я запущу: d <- tm_map(d, removeWords, stopwords('english')) но потом,...

18802 просмотров

r nlp stop-words tm

20.03.2022

readPDF (пакет tm) в R

Я попытался прочитать какой-то онлайн-документ в формате PDF в R. Я использовал функцию readRDF . Мой сценарий выглядит так safex <-...

4592 просмотров

r cygwin tm

31.03.2022

Ошибка при попытке прочитать PDF с помощью readPDF из пакета tm

(Windows 7/R версии 3.0.1) Ниже команды и полученная ошибка: > library(tm) > pdf <- readPDF(PdftotextOptions = "-layout") > dat <- pdf(elem = list(uri = "17214.pdf"), language="de", id="id1") Error in file(con, "r") : cannot...

5409 просмотров

r tm

25.01.2023

Сочетание качественных пользовательских данных с результатами анализа текста

У меня есть пары данных отзывов клиентов в CSV, обозначающие, рекомендовал ли клиент полученную услугу (1 или 0), «rec» и связанный комментарий «comment». Я пытаюсь сравнить отзывы клиентов между теми, кто рекомендовал услугу, и теми, кто этого не...

144 просмотров

r csv text-mining tm

25.10.2022

Удаление неанглоязычного текста из Корпуса в R с помощью tm()

Я использую tm() и wordcloud() для некоторого базового интеллектуального анализа данных в R, но сталкиваюсь с трудностями, потому что в моем наборе данных есть неанглийские символы (хотя я пытался отфильтровать другие языки на основе фоновых...

28447 просмотров

r tm

09.08.2022

Twitter Mining с использованием R (twitteR + tm): ошибка при более низкой конверсии

У меня возникли проблемы с работой с данными твиттера, которые я извлек, используя CRAN-версию пакета twitteR. В частности, более низкая конверсия из пакета tm. Я использую этот пример Это то, что я сейчас делаю: #oauth handshake and so...

951 просмотров

r twitter tm

13.12.2022

Создание матрицы термодокумента из файла Excel с использованием R

Для анализа настроений с использованием веб-майнинга плагина tm я должен создать TermDocumentMatrix, как показано в примере кода ниже: http://www.inside-r.org/packages/cran/tm/docs/tm_tag_score У меня есть файл csv с заголовками статей в...

6288 просмотров

r csv matrix tm term-document-matrix

15.02.2024

Построение матрицы терминологического документа

У меня есть CSV-файл, заголовок которого: DATE Alert и OriginatingAddress. Как мне построить матрицу термодокумента на основе двух столбцов: DATE и Alert. В строке будет предупреждение, а в столбце - день. Запись указывает количество появлений...

442 просмотров

r tm

28.06.2023

привязать вектор символов к списку в кадре данных

У меня есть список URL-адресов, и я извлек содержимое следующим образом: library(httr) link="http://www.workerspower.net/disposable-workers-the-real-price-of-sweat-shop-labor" get.link=GET(link) get.content=content(x2,as="text")...

254 просмотров

r httr base tm

06.09.2022

Читать текст юникода с помощью tm в R?

Я работаю с текстом в формате Unicode в R, используя пакет интеллектуального анализа текста tm. Я бы хотел, чтобы символы Юникода не уничтожались, когда они считываются в программу, но я не могу найти отсутствующее ключевое слово. Вот пример текста...

1157 просмотров

r unicode tm

24.07.2022

объединить два data.frames и заменить значения определенных столбцов df1 на значения df2

У меня есть два data.frames, которые я хочу объединить и заменить значения определенных столбцов df1 значениями df2. в этом рабочем примере всего 3 столбца. но в исходных данных в окончательном data.frame должно остаться около 20 столбцов. NO...

3102 просмотров

r merge replace tm

10.04.2022

R: найти наиболее часто встречающуюся группу слов в корпусе

Есть ли простой способ, как найти не только наиболее часто встречающиеся термины, но и выражения (то есть более одного слова, группы слов) в текстовом корпусе в R? Используя пакет tm, я могу найти такие наиболее часто встречающиеся термины: tdm...

8545 просмотров

corpus word-frequency tm

25.03.2023

DocumentTermMatrix завершается со странной ошибкой только тогда, когда # терминов › 3000

Мой код ниже работает нормально, если я не использую создание DocumentTermMatrix с более чем 3000 терминов. Эта строка: movie_dict <- findFreqTerms(movie_dtm_train, 8) movie_dtm_hiFq_train <- DocumentTermMatrix(movie_corpus_train,...

1996 просмотров

r sentiment-analysis document-classification tm

04.11.2022

Анализ текста с использованием LDA и tm в R

Привет, ребята, у меня небольшие проблемы с проведением LDA, потому что по какой-то причине, когда я готов провести анализ, я получаю ошибки. Я сделаю все возможное, чтобы выполнить то, что я делаю, к сожалению, я не смогу предоставить данные, потому...

1816 просмотров

r lda tm

15.09.2022

Как дать пробел между двумя словами после удаления текста пунктуации и цифр в R

Мы можем видеть, что в приведенном ниже примере после удаления числа 3054 и знаков препинания - в заданной строке "BG3054-suhas B-DC chr 23.7-22.8.13" вывод будет объединен как bgsuhas , но мне нужен пробел между этими двумя словами как bg suhas ....

2807 просмотров

r regex gsub tm

03.03.2023

Переименование терминов в матрице терминологического документа

Я только что создал матрицу терминологического документа в R, но теперь я хочу переименовать некоторые термины. Например здесь vector <- "This is a test." library(tm) doc.vec <- VectorSource(vector) doc.corpus <- Corpus(doc.vec) TDM...

1383 просмотров

r text tm mining

16.06.2023

Используйте функцию корпуса tm с большими данными в R

Я пытаюсь выполнять анализ больших данных в R с помощью tm . Я часто сталкиваюсь с проблемами памяти (например, can not allocation vector of size.... ) и использую установленные методы устранения этих проблем, такие как используя 64-битный...

3336 просмотров

r bigdata text-mining tm

07.12.2022

StemDocument R интеллектуальный анализ текста

Мои данные представляют собой текстовый файл и выглядят следующим образом: слова number_doc обзор 1 клиент 1 магазин 1 маржа 1 цена 2 акции 2 экономика 2 Номера документов отсортированы (от наименьшего к наибольшему). Теперь я хочу для...

4300 просмотров

r tm stemming

29.01.2023

Вопросы по теме 'tm'

Похожие вопросы