Вопросы по теме 'text-analysis'

НЛП: качественно положительное и отрицательное предложение
Мне нужна ваша помощь в определении наилучшего подхода к анализу отраслевых предложений (например, обзоров фильмов) на предмет «положительный» и «отрицательный». Я раньше видел библиотеки, такие как OpenNLP, но они слишком низкоуровневые - они просто...
12900 просмотров
schedule 04.02.2023

Списки слов для множества статей - матрица документов и терминов
У меня почти 150 тысяч статей на турецком языке. Я буду использовать статьи для исследования обработки естественного языка. Я хочу хранить слова и их частоту в статье после обработки статей. Я храню их в RDBS сейчас. У меня есть 3 таблицы:...
580 просмотров

Простой анализ ключевых слов/ключевых фраз в Ruby
Я хотел бы создать простой список популярных ключевых слов или фраз в твитах, содержащих определенный хэштег. Например, для всех твитов с хэштегом «#justinbieber» я хотел бы получить упорядоченный список десяти самых популярных слов и/или фраз,...
463 просмотров
schedule 01.09.2023

Точный поиск по фразе с использованием lucene без увеличения количества полей
Для поиска по фразе мы хотим выводить результаты только при наличии точного совпадения (без игнорирования стоп-слов). Если это нефразовый поиск, мы нормально отображаем результаты, даже если корневая форма слова совпадает и т. д. В настоящее время...
794 просмотров

Почему Stanford Topic Modeling Toolbox не создает каталог lda-output?
Я попытался запустить этот код из github (следуя шагам 1-2-3), который определяет 30 тем в 14 500 электронных письмах Сары Пэйлин. Темы, обнаруженные автором, находятся здесь . Однако Stanford Topic Modeling Toolbox не создает для меня каталог...
1375 просмотров

Концептуальная маркировка статей
У меня есть набор статей, и я хочу извлечь концепцию из каждой статьи. Понятие может быть самостоятельным или быть связанным вместе, образуя новое понятие. Для этого недавно я наткнулся на различные платные API, например, HP IDOL on DEMAND (...
218 просмотров

Проводник weka 3.7 не может классифицировать текст
Я пытаюсь выполнить классификацию текста с помощью проводника weka 3.7. Я преобразовал 2 текстовых файла (разделенные на два каталога class1 и class2) в arff с помощью текстового загрузчика. Прежде чем сделать это, я стандартизировал корпус пониже....
115 просмотров

API New York Times через командную строку
Я использую командную строку для доступа к API New York Times и сталкиваюсь с проблемами. Я получаю 'http' is not recognized as an internal or external command, operable program, or batch file при запуске...
398 просмотров
schedule 27.03.2023

Программное обеспечение для автоматического анализа текста?
Любое автоматизированное простое программное обеспечение для анализа текста? Мне нужно выполнить текстовый анализ следующего текста: http://www.columbia.edu/itc/mealac/pritchett/00generallinks/macaulay/txt_minute_education_1835.html
108 просмотров
schedule 07.05.2022

Вывод параметров модели с помощью vowpal wabbit
Я планирую использовать vowpal wabbit для запуска многих моделей с различной комбинацией параметров (что-то вроде поиска по сетке). Каждая модель будет иметь дату и время, связанные с ней. Вопрос . Есть ли способ использовать vw для простого...
126 просмотров
schedule 20.07.2022

Нужны ссылки, чтобы понять / проанализировать предложение для чат-бота без использования существующих библиотек
Я пытался много искать об этом, но все, что я мог найти, это ссылки на библиотеки NLP и AIML или API-интерфейсы чат-ботов. Я хочу начать с нуля и самостоятельно анализировать предложения, чтобы я мог написать базового чат-бота, который дает ответы,...
114 просмотров

Можно ли найти апостериорную вероятность появления тем, сгенерированных с помощью LDAvis, в данном документе? Как, если так?
Как может быть очевидно из вопроса, я довольно новичок в R, и мне не помешала бы небольшая помощь в этом. При создании тематических моделей я экспериментировал с LDA и LDAvis — код в (A) и (B) ниже. LDA в (A) позволяет мне найти апостериорную...
480 просмотров
schedule 13.04.2023

Есть ли способ удалить специальные символы из текстового файла?
Я пытаюсь выполнить базовый анализ текста из командной строки, но всякий раз, когда я пытаюсь запустить команду, я получаю следующее: tr: Недопустимая последовательность байтов. Я сузил проблему до специальных символов в тексте (´, ˆ,¨ и т. д.)....
5348 просмотров
schedule 27.09.2022

Помимо SOUNDEX и DIFFERENCE — SQL Server
Я использую функции SOUNDEX и DIFFERENCE для анализа данных, представленных в таблице. Но эта функция не работает при типе данных ниже. ITEM TYPE и ITEM SIZE совершенно разные. SELECT SOUNDEX('ITEM TYPE'), SOUNDEX('ITEM SIZE') op:-...
2458 просмотров
schedule 22.07.2022

Используете тональность текста как функцию в модели машинного обучения?
Я изучаю, какие функции у меня будут для моей модели машинного обучения, используя имеющиеся у меня данные. Мои данные содержат много текстовых данных, поэтому мне было интересно, как извлечь из них ценные функции. Вопреки моему предыдущему мнению,...
147 просмотров

Кодировщик меток предварительной обработки Sklearn выдает ошибку для нескольких столбцов
У меня есть кадр данных pandas со следующей структурой item_condition_id category brand_name category price float64 shipping category...
3001 просмотров

Извлечь текст между двумя разделителями из текстового файла
В настоящее время я пишу магистерскую диссертацию о нарциссизме генерального директора. Чтобы измерить это, я должен сделать анализ текста звонков о доходах. Я написал код на python, следуя ответам, доступным в эта ссылка , которая позволяет мне...
645 просмотров
schedule 08.05.2023

Извлечение первой строки нескольких текстовых документов и сохранение в виде метаданных/вектора в R
Я новичок в R и в настоящее время работаю с пакетом Quanteda для анализа текста. Для тематических моделей с течением времени мне нужны метаданные в текстовых файлах, с которыми я работаю. Первая строка каждого из моих документов содержит дату,...
33 просмотров
schedule 22.01.2023