Публикации по теме 'text-mining'


Простой, но эффективный способ очистки текста с помощью NLTK
Простой код для очистки текста! Очистка текста и ее важность: После получения данных их необходимо очистить. В большинстве случаев данные будут содержать повторяющиеся записи, ошибки или быть несогласованными. Предварительная обработка данных является важным шагом перед применением любой модели машинного обучения. То же самое с текстовыми данными, прежде чем применять любую модель машинного обучения к текстовым данным, требуется предварительная обработка данных...

Рекомендательные системы на основе метаданных в Python
Этот блог иллюстрирует систему рекомендаций на основе метаданных на Python Перед тем, как приступить к реализации рекомендательных систем на основе метаданных в python, я рекомендую вам прочитать 4-минутное чтение этого блога, в котором описывается рекомендательная система и ее типы с точки зрения непрофессионала. Https://medium.com/@saketgarodia/the-world-of-recommender-systems-e4ea504341ac?source=friends_link&sk=508a980d8391daa93530a32e9c927a87 В этом блоге я покажу, как..

Как машины понимают наш язык: введение в обработку естественного языка
Обработка естественного языка для меня одна из самых увлекательных областей науки о данных. Тот факт, что машина может понимать содержание текста с определенной точностью, просто завораживает, а иногда и пугает. Применение НЛП безгранично. Вот как машина классифицирует, является ли электронное письмо спамом, положительный или отрицательный отзыв, и как поисковая система определяет, к какому типу человека вы относитесь, на основе содержания вашего запроса, чтобы соответствующим образом..

Вопросы по теме 'text-mining'

Как классифицировать слова по соответствующим им категориям?
Мне нужно реализовать классификацию текста для длинного списка слов. У меня есть некоторые категории, например. Если в списке есть слово «Великобритания», оно попадет в раздел «Регионы». Если слово «пицца», оно попадет в категорию «еда». Как я...
2300 просмотров

Инструменты для уменьшения больших файлов журналов
Я работаю с огромными файлами журнала - 1 ГБ или около того, в которых много пользовательских сеансов, в то время как меня интересует только один сеанс. Обычно я могу сузить общую область файла, которая охватывает интересующий меня сеанс, просто...
54 просмотров
schedule 20.05.2022

Ссылки на книги и статьи, необходимые для начала работы с классификацией документов
Я заинтересован в выполнении проекта по классификации документов и искал книги, которые могут быть полезны для теоретических частей анализа текста, связанных с этим, или примеры статей, описывающих процесс перехода от обучающих данных с...
236 просмотров

Классифицировать слова на хорошие и плохие
У меня есть список доменных имен, и я хочу определить, похоже ли имя домена на порносайт или нет. Как лучше это сделать? Список порнодоменов выглядит так: http://dumpz.org/56957/ . Эти домены можно использовать для обучения системы тому, как...
1486 просмотров

Вывод тем с помощью молотка, используя сохраненное состояние темы
Я использовал следующую команду для создания тематической модели из некоторых документов: bin/mallet train-topics --input topic-input.mallet --num-topics 100 --output-state topic-state.gz Однако я не использовал параметр --output-model для...
2236 просмотров
schedule 10.06.2022

WEKA — Классификация новых данных из Java — преобразование IDF
Мы пытаемся реализовать классификатор WEKA изнутри программы Java. Пока все хорошо, все работает хорошо, однако при создании классификатора из обучающего набора в графическом интерфейсе Weka мы использовали IDF-преобразование StringToWordVector,...
1605 просмотров

Как суммировать количество слов для каждого человека в диалоге?
Я начинаю изучать Python и пытаюсь написать программу, которая импортирует текстовый файл, подсчитывает общее количество слов, подсчитывает количество слов в конкретном абзаце (говорит каждый участник, описывается «P1», «P2» и т. Д.), Исключить эти...
1803 просмотров
schedule 11.08.2022

Чтение многомерных данных в R без использования фрейма данных
У меня очень разреженные многомерные (40 тыс. наблюдений, 20 тыс. измерений) текстовые данные в формате ARFF . сгенерировано WEKA . В R доступны 2 средства чтения ARFF через RWeka и иностранные пакеты. Проблема с обоими этими считывателями...
521 просмотров
schedule 21.07.2023

Извлечение слов с помощью nltk из немецкого текста
Я пытаюсь извлечь слова из немецкого документа, когда я использую следующий метод, как описано в учебнике nltk, мне не удается получить слова со специальными символами языка. ptcr = nltk.corpus.PlaintextCorpusReader(Corpus, '.*'); words =...
17362 просмотров
schedule 20.04.2023

Метод/инструмент для извлечения ключевых слов из списка предложений
У меня есть большой список предложений, и я хотел бы пометить каждое из них своими уникальными ключевыми словами, чтобы помочь мне определить, какие предложения похожи для целей группировки. Например: The dog ran fast. - tagged as: dog The cat...
1184 просмотров

Пакет интеллектуального анализа текста R, добавляющий новую функцию в getTransformation
Я пытаюсь добавить новый стеммер, который работает с использованием метода поиска в таблице. если h — это хэш, содержащий операцию формирования основы, он кодируется следующим образом: ключи — это слова до выделения основы, а значения — слова после...
1164 просмотров
schedule 03.07.2023

Mahout — Кластеризация — присвоение имен элементам кластера
Я провожу некоторые исследования и играю с Apache Mahout 0.6. Моя цель — создать систему, которая будет называть различные категории документов на основе пользовательского ввода. Документы заранее неизвестны, и я не знаю также, какие у меня...
475 просмотров
schedule 10.06.2023

Поиск орфографических ошибок слова в векторе символов с помощью R - обратного средства проверки орфографии
Я занимаюсь текстовым анализом большой базы данных для создания индикаторных переменных, которые указывают на появление определенных фраз в поле комментариев наблюдения. Комментарии были введены техническими специалистами, поэтому используемые...
3138 просмотров
schedule 17.04.2022

Как получить информацию в формате XML из базы данных веб-страниц Nutch
Я пытаюсь создать портал для агрегирования книг. Nutch предоставляет мне отличный поисковый робот, но мне нужна очень конкретная информация, такая как название книги, цена книги, ISBN, автор и т. Д. Как извлечь эту информацию из просканированных...
150 просмотров
schedule 26.06.2023

Лучшая кластеризация текстовых документов, чем tf/idf и косинусное сходство?
Я пытаюсь сгруппировать поток Twitter. Я хочу поместить каждый твит в группу, посвященную одной и той же теме. Я попытался кластеризовать поток, используя онлайн-алгоритм кластеризации с tf/idf и косинусным сходством, но обнаружил, что результаты...
11169 просмотров

Сочетание качественных пользовательских данных с результатами анализа текста
У меня есть пары данных отзывов клиентов в CSV, обозначающие, рекомендовал ли клиент полученную услугу (1 или 0), «rec» и связанный комментарий «comment». Я пытаюсь сравнить отзывы клиентов между теми, кто рекомендовал услугу, и теми, кто этого не...
144 просмотров
schedule 25.10.2022

список частот слов с использованием R
Я использую пакет tm для анализа текста. Моя проблема заключается в создании списка слов и их частоты, связанных с одним и тем же library(tm) library(RWeka) txt <- read.csv("HW.csv",header=T) df <- do.call("rbind", lapply(txt,...
52206 просмотров

R: извлечение заглавных букв и специальных символов с помощью синтаксиса strsplit и perl REGEX.
Как бы вы извлекли только / со следующими заглавными буквами и все [[:punct:]]/$[[:punct:]] . text <- c("This/ART ,/$; Is/NN something something/else A/VAFIN faulty/ADV text/ADV which/ADJD i/PWS propose/ADV as/APPR Example/NE ./$. So/NE...
2778 просмотров
schedule 19.12.2022

Как выполнить классификацию текста с вероятностями метки?
Я пытаюсь решить проблему классификации текста в академических целях. Мне нужно разделить твиты на такие ярлыки, как «облако», «холодный», «сухой», «горячий», «влажный», «ураган», «лед», «дождь», «снег», «шторм», « ветер »и« прочее ». Каждый твит в...
1652 просмотров

Как настроить слова тега в грамматике GATE JAPE?
У меня есть набор документов, и каждый документ имеет свой заголовок. Пример: если в заголовке документа указано «Психологическая оценка», я хочу пометить документ как «Медицинское правило». Я загрузил документ и загрузил ANNIE с настройками по...
1667 просмотров
schedule 06.06.2022