Статьи по тематике text-mining

Публикации по теме 'text-mining'

Простой, но эффективный способ очистки текста с помощью NLTK

Простой код для очистки текста! Очистка текста и ее важность: После получения данных их необходимо очистить. В большинстве случаев данные будут содержать повторяющиеся записи, ошибки или быть несогласованными. Предварительная обработка данных является важным шагом перед применением любой модели машинного обучения. То же самое с текстовыми данными, прежде чем применять любую модель машинного обучения к текстовым данным, требуется предварительная обработка данных...

Как машины понимают наш язык: введение в обработку естественного языка

Обработка естественного языка для меня одна из самых увлекательных областей науки о данных. Тот факт, что машина может понимать содержание текста с определенной точностью, просто завораживает, а иногда и пугает. Применение НЛП безгранично. Вот как машина классифицирует, является ли электронное письмо спамом, положительный или отрицательный отзыв, и как поисковая система определяет, к какому типу человека вы относитесь, на основе содержания вашего запроса, чтобы соответствующим образом..

Вопросы по теме 'text-mining'

Как классифицировать слова по соответствующим им категориям?

Мне нужно реализовать классификацию текста для длинного списка слов. У меня есть некоторые категории, например. Если в списке есть слово «Великобритания», оно попадет в раздел «Регионы». Если слово «пицца», оно попадет в категорию «еда». Как я...

2300 просмотров

15.10.2023

Инструменты для уменьшения больших файлов журналов

Я работаю с огромными файлами журнала - 1 ГБ или около того, в которых много пользовательских сеансов, в то время как меня интересует только один сеанс. Обычно я могу сузить общую область файла, которая охватывает интересующий меня сеанс, просто...

54 просмотров

logging text-mining

20.05.2022

Ссылки на книги и статьи, необходимые для начала работы с классификацией документов

Я заинтересован в выполнении проекта по классификации документов и искал книги, которые могут быть полезны для теоретических частей анализа текста, связанных с этим, или примеры статей, описывающих процесс перехода от обучающих данных с...

236 просмотров

text-mining document-classification data-mining

30.01.2023

Классифицировать слова на хорошие и плохие

У меня есть список доменных имен, и я хочу определить, похоже ли имя домена на порносайт или нет. Как лучше это сделать? Список порнодоменов выглядит так: http://dumpz.org/56957/ . Эти домены можно использовать для обучения системы тому, как...

1486 просмотров

python scala algorithm classification text-mining

15.07.2022

Вывод тем с помощью молотка, используя сохраненное состояние темы

Я использовал следующую команду для создания тематической модели из некоторых документов: bin/mallet train-topics --input topic-input.mallet --num-topics 100 --output-state topic-state.gz Однако я не использовал параметр --output-model для...

2236 просмотров

text-mining topic-modeling mallet

10.06.2022

WEKA — Классификация новых данных из Java — преобразование IDF

Мы пытаемся реализовать классификатор WEKA изнутри программы Java. Пока все хорошо, все работает хорошо, однако при создании классификатора из обучающего набора в графическом интерфейсе Weka мы использовали IDF-преобразование StringToWordVector,...

1605 просмотров

java machine-learning text-mining tf-idf weka

15.05.2023

Как суммировать количество слов для каждого человека в диалоге?

Я начинаю изучать Python и пытаюсь написать программу, которая импортирует текстовый файл, подсчитывает общее количество слов, подсчитывает количество слов в конкретном абзаце (говорит каждый участник, описывается «P1», «P2» и т. Д.), Исключить эти...

1803 просмотров

python nlp count sum text-mining

11.08.2022

Чтение многомерных данных в R без использования фрейма данных

У меня очень разреженные многомерные (40 тыс. наблюдений, 20 тыс. измерений) текстовые данные в формате ARFF . сгенерировано WEKA . В R доступны 2 средства чтения ARFF через RWeka и иностранные пакеты. Проблема с обоими этими считывателями...

521 просмотров

r classification text-mining data-mining

21.07.2023

Извлечение слов с помощью nltk из немецкого текста

Я пытаюсь извлечь слова из немецкого документа, когда я использую следующий метод, как описано в учебнике nltk, мне не удается получить слова со специальными символами языка. ptcr = nltk.corpus.PlaintextCorpusReader(Corpus, '.*'); words =...

17362 просмотров

python nlp nltk text-mining

20.04.2023

Метод/инструмент для извлечения ключевых слов из списка предложений

У меня есть большой список предложений, и я хотел бы пометить каждое из них своими уникальными ключевыми словами, чтобы помочь мне определить, какие предложения похожи для целей группировки. Например: The dog ran fast. - tagged as: dog The cat...

1184 просмотров

nlp text-mining data-mining search-engine semantic-analysis

08.07.2023

Пакет интеллектуального анализа текста R, добавляющий новую функцию в getTransformation

Я пытаюсь добавить новый стеммер, который работает с использованием метода поиска в таблице. если h — это хэш, содержащий операцию формирования основы, он кодируется следующим образом: ключи — это слова до выделения основы, а значения — слова после...

1164 просмотров

r text-mining corpus stemming

03.07.2023

Mahout — Кластеризация — присвоение имен элементам кластера

Я провожу некоторые исследования и играю с Apache Mahout 0.6. Моя цель — создать систему, которая будет называть различные категории документов на основе пользовательского ввода. Документы заранее неизвестны, и я не знаю также, какие у меня...

475 просмотров

java text-mining mahout

10.06.2023

Поиск орфографических ошибок слова в векторе символов с помощью R - обратного средства проверки орфографии

Я занимаюсь текстовым анализом большой базы данных для создания индикаторных переменных, которые указывают на появление определенных фраз в поле комментариев наблюдения. Комментарии были введены техническими специалистами, поэтому используемые...

3138 просмотров

r text-mining spell-checking tm

17.04.2022

Как получить информацию в формате XML из базы данных веб-страниц Nutch

Я пытаюсь создать портал для агрегирования книг. Nutch предоставляет мне отличный поисковый робот, но мне нужна очень конкретная информация, такая как название книги, цена книги, ISBN, автор и т. Д. Как извлечь эту информацию из просканированных...

150 просмотров

xml aggregation text-mining nutch

26.06.2023

Лучшая кластеризация текстовых документов, чем tf/idf и косинусное сходство?

Я пытаюсь сгруппировать поток Twitter. Я хочу поместить каждый твит в группу, посвященную одной и той же теме. Я попытался кластеризовать поток, используя онлайн-алгоритм кластеризации с tf/idf и косинусным сходством, но обнаружил, что результаты...

11169 просмотров

machine-learning cluster-analysis text-mining data-mining

24.04.2023

Сочетание качественных пользовательских данных с результатами анализа текста

У меня есть пары данных отзывов клиентов в CSV, обозначающие, рекомендовал ли клиент полученную услугу (1 или 0), «rec» и связанный комментарий «comment». Я пытаюсь сравнить отзывы клиентов между теми, кто рекомендовал услугу, и теми, кто этого не...

144 просмотров

r csv text-mining tm

25.10.2022

список частот слов с использованием R

Я использую пакет tm для анализа текста. Моя проблема заключается в создании списка слов и их частоты, связанных с одним и тем же library(tm) library(RWeka) txt <- read.csv("HW.csv",header=T) df <- do.call("rbind", lapply(txt,...

52206 просмотров

r text-mining word-frequency term-document-matrix

23.02.2023

R: извлечение заглавных букв и специальных символов с помощью синтаксиса strsplit и perl REGEX.

Как бы вы извлекли только / со следующими заглавными буквами и все [[:punct:]]/$[[:punct:]] . text <- c("This/ART ,/$; Is/NN something something/else A/VAFIN faulty/ADV text/ADV which/ADJD i/PWS propose/ADV as/APPR Example/NE ./$. So/NE...

2778 просмотров

r regex text-mining strsplit

19.12.2022

Как выполнить классификацию текста с вероятностями метки?

Я пытаюсь решить проблему классификации текста в академических целях. Мне нужно разделить твиты на такие ярлыки, как «облако», «холодный», «сухой», «горячий», «влажный», «ураган», «лед», «дождь», «снег», «шторм», « ветер »и« прочее ». Каждый твит в...

1652 просмотров

machine-learning classification text-mining mahout

28.06.2023

Как настроить слова тега в грамматике GATE JAPE?

У меня есть набор документов, и каждый документ имеет свой заголовок. Пример: если в заголовке документа указано «Психологическая оценка», я хочу пометить документ как «Медицинское правило». Я загрузил документ и загрузил ANNIE с настройками по...

1667 просмотров

text-mining grammar gate

06.06.2022

Публикации по теме 'text-mining'

Простой, но эффективный способ очистки текста с помощью NLTK

Рекомендательные системы на основе метаданных в Python

Как машины понимают наш язык: введение в обработку естественного языка

Вопросы по теме 'text-mining'

Похожие вопросы