Публикации по теме 'text-mining'
Простой, но эффективный способ очистки текста с помощью NLTK
Простой код для очистки текста!
Очистка текста и ее важность:
После получения данных их необходимо очистить. В большинстве случаев данные будут содержать повторяющиеся записи, ошибки или быть несогласованными. Предварительная обработка данных является важным шагом перед применением любой модели машинного обучения. То же самое с текстовыми данными, прежде чем применять любую модель машинного обучения к текстовым данным, требуется предварительная обработка данных...
Рекомендательные системы на основе метаданных в Python
Этот блог иллюстрирует систему рекомендаций на основе метаданных на Python
Перед тем, как приступить к реализации рекомендательных систем на основе метаданных в python, я рекомендую вам прочитать 4-минутное чтение этого блога, в котором описывается рекомендательная система и ее типы с точки зрения непрофессионала.
Https://medium.com/@saketgarodia/the-world-of-recommender-systems-e4ea504341ac?source=friends_link&sk=508a980d8391daa93530a32e9c927a87
В этом блоге я покажу, как..
Как машины понимают наш язык: введение в обработку естественного языка
Обработка естественного языка для меня одна из самых увлекательных областей науки о данных. Тот факт, что машина может понимать содержание текста с определенной точностью, просто завораживает, а иногда и пугает.
Применение НЛП безгранично. Вот как машина классифицирует, является ли электронное письмо спамом, положительный или отрицательный отзыв, и как поисковая система определяет, к какому типу человека вы относитесь, на основе содержания вашего запроса, чтобы соответствующим образом..
Вопросы по теме 'text-mining'
Как классифицировать слова по соответствующим им категориям?
Мне нужно реализовать классификацию текста для длинного списка слов. У меня есть некоторые категории, например. Если в списке есть слово «Великобритания», оно попадет в раздел «Регионы». Если слово «пицца», оно попадет в категорию «еда».
Как я...
2300 просмотров
schedule
15.10.2023
Инструменты для уменьшения больших файлов журналов
Я работаю с огромными файлами журнала - 1 ГБ или около того, в которых много пользовательских сеансов, в то время как меня интересует только один сеанс.
Обычно я могу сузить общую область файла, которая охватывает интересующий меня сеанс, просто...
54 просмотров
schedule
20.05.2022
Ссылки на книги и статьи, необходимые для начала работы с классификацией документов
Я заинтересован в выполнении проекта по классификации документов и искал книги, которые могут быть полезны для теоретических частей анализа текста, связанных с этим, или примеры статей, описывающих процесс перехода от обучающих данных с...
236 просмотров
schedule
30.01.2023
Классифицировать слова на хорошие и плохие
У меня есть список доменных имен, и я хочу определить, похоже ли имя домена на порносайт или нет. Как лучше это сделать? Список порнодоменов выглядит так: http://dumpz.org/56957/ . Эти домены можно использовать для обучения системы тому, как...
1486 просмотров
schedule
15.07.2022
Вывод тем с помощью молотка, используя сохраненное состояние темы
Я использовал следующую команду для создания тематической модели из некоторых документов:
bin/mallet train-topics --input topic-input.mallet --num-topics 100 --output-state topic-state.gz
Однако я не использовал параметр --output-model для...
2236 просмотров
schedule
10.06.2022
WEKA — Классификация новых данных из Java — преобразование IDF
Мы пытаемся реализовать классификатор WEKA изнутри программы Java. Пока все хорошо, все работает хорошо, однако при создании классификатора из обучающего набора в графическом интерфейсе Weka мы использовали IDF-преобразование StringToWordVector,...
1605 просмотров
schedule
15.05.2023
Как суммировать количество слов для каждого человека в диалоге?
Я начинаю изучать Python и пытаюсь написать программу, которая импортирует текстовый файл, подсчитывает общее количество слов, подсчитывает количество слов в конкретном абзаце (говорит каждый участник, описывается «P1», «P2» и т. Д.), Исключить эти...
1803 просмотров
schedule
11.08.2022
Чтение многомерных данных в R без использования фрейма данных
У меня очень разреженные многомерные (40 тыс. наблюдений, 20 тыс. измерений) текстовые данные в формате ARFF . сгенерировано WEKA .
В R доступны 2 средства чтения ARFF через RWeka и иностранные пакеты. Проблема с обоими этими считывателями...
521 просмотров
schedule
21.07.2023
Извлечение слов с помощью nltk из немецкого текста
Я пытаюсь извлечь слова из немецкого документа, когда я использую следующий метод, как описано в учебнике nltk, мне не удается получить слова со специальными символами языка.
ptcr = nltk.corpus.PlaintextCorpusReader(Corpus, '.*');
words =...
17362 просмотров
schedule
20.04.2023
Метод/инструмент для извлечения ключевых слов из списка предложений
У меня есть большой список предложений, и я хотел бы пометить каждое из них своими уникальными ключевыми словами, чтобы помочь мне определить, какие предложения похожи для целей группировки.
Например:
The dog ran fast. - tagged as: dog
The cat...
1184 просмотров
schedule
08.07.2023
Пакет интеллектуального анализа текста R, добавляющий новую функцию в getTransformation
Я пытаюсь добавить новый стеммер, который работает с использованием метода поиска в таблице. если h — это хэш, содержащий операцию формирования основы, он кодируется следующим образом: ключи — это слова до выделения основы, а значения — слова после...
1164 просмотров
schedule
03.07.2023
Mahout — Кластеризация — присвоение имен элементам кластера
Я провожу некоторые исследования и играю с Apache Mahout 0.6.
Моя цель — создать систему, которая будет называть различные категории документов на основе пользовательского ввода. Документы заранее неизвестны, и я не знаю также, какие у меня...
475 просмотров
schedule
10.06.2023
Поиск орфографических ошибок слова в векторе символов с помощью R - обратного средства проверки орфографии
Я занимаюсь текстовым анализом большой базы данных для создания индикаторных переменных, которые указывают на появление определенных фраз в поле комментариев наблюдения. Комментарии были введены техническими специалистами, поэтому используемые...
3138 просмотров
schedule
17.04.2022
Как получить информацию в формате XML из базы данных веб-страниц Nutch
Я пытаюсь создать портал для агрегирования книг. Nutch предоставляет мне отличный поисковый робот, но мне нужна очень конкретная информация, такая как название книги, цена книги, ISBN, автор и т. Д. Как извлечь эту информацию из просканированных...
150 просмотров
schedule
26.06.2023
Лучшая кластеризация текстовых документов, чем tf/idf и косинусное сходство?
Я пытаюсь сгруппировать поток Twitter. Я хочу поместить каждый твит в группу, посвященную одной и той же теме. Я попытался кластеризовать поток, используя онлайн-алгоритм кластеризации с tf/idf и косинусным сходством, но обнаружил, что результаты...
11169 просмотров
schedule
24.04.2023
Сочетание качественных пользовательских данных с результатами анализа текста
У меня есть пары данных отзывов клиентов в CSV, обозначающие, рекомендовал ли клиент полученную услугу (1 или 0), «rec» и связанный комментарий «comment». Я пытаюсь сравнить отзывы клиентов между теми, кто рекомендовал услугу, и теми, кто этого не...
144 просмотров
schedule
25.10.2022
список частот слов с использованием R
Я использую пакет tm для анализа текста. Моя проблема заключается в создании списка слов и их частоты, связанных с одним и тем же
library(tm)
library(RWeka)
txt <- read.csv("HW.csv",header=T)
df <- do.call("rbind", lapply(txt,...
52206 просмотров
schedule
23.02.2023
R: извлечение заглавных букв и специальных символов с помощью синтаксиса strsplit и perl REGEX.
Как бы вы извлекли только / со следующими заглавными буквами и все [[:punct:]]/$[[:punct:]] .
text <- c("This/ART ,/$; Is/NN something something/else A/VAFIN faulty/ADV text/ADV which/ADJD i/PWS propose/ADV as/APPR Example/NE ./$. So/NE...
2778 просмотров
schedule
19.12.2022
Как выполнить классификацию текста с вероятностями метки?
Я пытаюсь решить проблему классификации текста в академических целях. Мне нужно разделить твиты на такие ярлыки, как «облако», «холодный», «сухой», «горячий», «влажный», «ураган», «лед», «дождь», «снег», «шторм», « ветер »и« прочее ». Каждый твит в...
1652 просмотров
schedule
28.06.2023
Как настроить слова тега в грамматике GATE JAPE?
У меня есть набор документов, и каждый документ имеет свой заголовок. Пример: если в заголовке документа указано «Психологическая оценка», я хочу пометить документ как «Медицинское правило».
Я загрузил документ и загрузил ANNIE с настройками по...
1667 просмотров
schedule
06.06.2022