Публикации по теме 'text-classification'


Классификация текста с помощью RNN
Глубокое обучение Классификация текста с помощью RNN Рекуррентные нейронные сети, также известные как RNN, - это известная контролируемая методология глубокого обучения. Другими часто используемыми нейронными сетями глубокого обучения являются сверточные нейронные сети и искусственные нейронные сети. Основная цель глубокого обучения - повторить работу мозга с помощью машины. В результате каждая структура нейронной сети представляет собой часть мозга. Искусственная нейронная..

Каков наилучший подход к классификации текста?
Классификация текста помогает машинам понять процесс общения посредством обработки естественного языка. На самом деле, классификация текстов для машины важна для понимания ключевых текстов, имеющих смысл в предложении, обеспечивающем всестороннее понимание машин. На самом деле классификация текста и данных также может выполняться либо вручную людьми, либо с использованием машинного обучения или программного обеспечения на основе ИИ, которые также классифицируют ключевые тексты для НЛП..

Вопросы по теме 'text-classification'

Как пометить текст на основе его категории с помощью OpenNLP?
Я хочу пометить текст на основе категории, к которой он принадлежит... Например ... "Сцепление и передача контролируются с помощью микрочипа" -> сцепление/механическое, зубчатое/механическое, микросхема/электронное «программное обеспечение,...
825 просмотров

Использование LibShortText с файлами в формате LibSVM
Я пытаюсь использовать LibShortText , но не совсем понимаю, как это работает. Из README похоже, что его функции предназначены для текстовых файлов. Однако мне нужно классифицировать файлы, которые уже находятся в формате LibSVM, поэтому я...
737 просмотров

Нужно ли наивному байесовскому классификатору знать весь словарный запас?
Я пытаюсь классифицировать твиты по двум категориям (например, basketball и non-basketball ). Очевидно, что набор данных является динамическим, т. е. коллекция документов не привязана к набору из N документов (т. е. твитов): набор данных...
884 просмотров

Лексиконный словарь для слов-синонимов
Существует несколько словарей, доступных для обработки естественного языка. Например, словари положительных и отрицательных слов и т. д. Есть ли доступный словарь, содержащий список синонимов для всех словарных слов? лайк за nice...
4267 просмотров

Хранение фолдов XValidation (Cross Validation) в Rapidminer?
Я много пробовал с помощью кода, чтобы сохранить разделенные образцы теста/обучения для каждой складки в 10-кратной перекрестной проверке (стратифицированной), но не смог этого сделать... Есть ли способ сохранить тестовые / обучающие образцы (не...
598 просмотров

Проводник weka 3.7 не может классифицировать текст
Я пытаюсь выполнить классификацию текста с помощью проводника weka 3.7. Я преобразовал 2 текстовых файла (разделенные на два каталога class1 и class2) в arff с помощью текстового загрузчика. Прежде чем сделать это, я стандартизировал корпус пониже....
115 просмотров

Предоставление единого тега всему документу с использованием SVM
Я хотел бы знать, как обучить SVM, предоставляя в качестве входных данных весь документ и одну метку для этого входного документа. Я пометил только слово за словом до сих пор. например, входной документ может содержать от 6 до 10 предложений, и весь...
98 просмотров

Токенизация текста с помощью scikit-learn
У меня есть следующий код для извлечения функций из набора файлов (имя папки — это имя категории) для классификации текста. import sklearn.datasets from sklearn.feature_extraction.text import TfidfVectorizer train =...
6932 просмотров

Как определить точные экземпляры, которые неправильно классифицированы в weka
Вот мой код, я использую weka API. Я хочу распечатать неправильно классифицированные экземпляры и экземпляры, которые классифицированы точно. пожалуйста, помогите мне или расскажите мне о любом другом java API для классификации текстов, который...
292 просмотров
schedule 01.06.2022

Классификатор sklearn получает ValueError: неверная форма ввода
У меня есть csv, структура CAT1,CAT2,TITLE,URL,CONTENT , CAT1, CAT2, TITLE, CONTENT на китайском языке. Я хочу обучить LinearSVC или MultinomialNB с X(TITLE) и feature(CAT1,CAT2), оба получают эту ошибку. ниже мой код: PS: я пишу ниже код...
100845 просмотров

Почему мой тренировочный набор также должен быть искажен с точки зрения числа распределений классов только потому, что мой тестовый набор искажен
Мой вопрос заключается в том, почему мой тренировочный набор также должен быть искажен (количество экземпляров положительного класса намного меньше по сравнению с отрицательным классом), когда мой тестовый набор также искажен. Я читал, что важно...
1069 просмотров

Получение вероятности класса с использованием наивного Байеса
Я пытаюсь классифицировать ввод с помощью двух классов, вот код. dino и crypto — это два класса: for w, cnt in list(counts.items()): #count is dict with word and it's count value p_word = vocab[w] / sum(vocab.values()) p_w_given_dino...
389 просмотров

TextClassification с TextBlob
Я полный новичок в машинном обучении, НЛП, анализе данных, но я очень мотивирован, чтобы понять это лучше. Я читаю пару книг по NLTK, scikit-learn и т. д. Я обнаружил модуль Python «TextBlob» и обнаружил, что с ним очень легко начать работу. Поэтому...
1651 просмотров

Почему weka вычисляет неправильную числовую функцию stringToWordVector на WEKA?
Я хочу вычислить stringToWordVector моего набора данных в приложении WEKA. Я обновляю параметр wordsToKeep на 50. Но он вычисляет 78 слов. Я хочу 50 слов, но он вычисляет 78 слов. Как исправить расчет? Мой набор данных:...
61 просмотров

Как улучшить классификацию небольших текстов
Данные, которые у меня есть, это в основном твиты или небольшие комментарии (300-400 символов). Я использовал модель Bag-Of-Word и классификацию NaiveBayes. Теперь у меня много неправильно классифицированных случаев, которые относятся к типу,...
1089 просмотров

Внешнее обучение для пайплайнов Sklearn
Я новичок, работаю в Sklearn, используя SGDClassifier , чтобы классифицировать тексты из одного предложения с помощью меток. (Вспомните, например, электронные письма Ham/Spam). Вот мой конвейер: clf = SGDClassifier(fit_intercept=True,...
785 просмотров

TextBlob Наивная байесовская классификация текста
Я пытаюсь реализовать наивный байесовский классификатор в твитах, используя TextBlob в python. Мне удалось обучить набор данных и успешно классифицировать отдельные твиты, используя: print cl.classify("text") Теперь я хочу открыть файл csv и...
624 просмотров
schedule 11.04.2022

наивный байесовский классификатор: должен ли быть одинаковый размер корпуса для каждой категории?
Я строю наивный байесовский классификатор для двух категорий: положительных и отрицательных. Я хочу, чтобы классификатор классифицировал предложение как pos, если оно содержит определенные слова, и как neg, если оно не содержит этих слов. Мой...
115 просмотров
schedule 10.05.2024

Использование Keras для классификации текста
Я изо всех сил пытаюсь приблизиться к методу мешка слов/лексики для представления моих входных данных в виде одного горячего вектора для моей модели нейронной сети в keras. Я хотел бы построить простую трехслойную сеть, но мне нужна помощь в...
9632 просмотров
schedule 16.04.2023

Python: классифицируйте текст по категориям
У меня есть часть тренировочного набора url category...
1872 просмотров