Статьи по тематике document-classification [text, svm, document-classification, text-mining, data-mining]

Вопросы по теме 'document-classification'

Я хочу классифицировать набор данных новостей, а обучающие данные классифицируются с помощью предметного кода IPTC (иерархическая классификация). В моем проекте я должен использовать svm. Я выполнил все операции по извлечению признаков, выделению...

5562 просмотров

text svm document-classification

31.12.2022

Ссылки на книги и статьи, необходимые для начала работы с классификацией документов

Я заинтересован в выполнении проекта по классификации документов и искал книги, которые могут быть полезны для теоретических частей анализа текста, связанных с этим, или примеры статей, описывающих процесс перехода от обучающих данных с...

236 просмотров

text-mining document-classification data-mining

30.01.2023

Классификация документов с неполным обучающим набором

Подскажите пожалуйста. У меня есть коллекция документов, которые имеют общий атрибут (например, появляется слово French), некоторые из этих документов были отмечены как не относящиеся к этой коллекции (например, появляется французский поцелуй), но не...

477 просмотров

artificial-intelligence neural-network document-classification

12.08.2022

Scikit-learn: BernoulliNB, v0.10 и v0.13: очень разные результаты

Это что-то вроде продолжения этой темы , где я получал ошибочные результаты с классификатором GaussianNB, которые оказались из-за того, что у меня был scikit-learn v0.10 на виртуальной машине Linux, над которой я проводил эксперименты. Вместо этого...

293 просмотров

machine-learning scikit-learn bayesian document-classification bernoulli-probability

06.10.2022

Классификация наивных байесовских текстов терпит неудачу в одной категории. Почему?

Я реализую наивный байесовский классификатор для обнаружения текстовых категорий. У меня 37 категорий, и у меня точность около 36% на моем тестовом наборе. Я хочу повысить точность, поэтому решил реализовать 37 двусторонних классификаторов, как...

1880 просмотров

machine-learning nlp classification bayesian document-classification

14.07.2023

Как нормализовать векторы tf-idf для SVM?

Я использую поддержку векторных машин для классификация документов . Мой набор функций для каждого документа - это вектор tf-idf . У меня есть документы M с каждым вектором tf-idf размера N. Предоставляя матрицу M * N. Размер M составляет...

2511 просмотров

machine-learning svm document-classification normalization libsvm

19.04.2022

N-кратная перекрестная проверка в weka для классификации твитов

Моя цель - использовать weka для классификации множества твитов по заранее определенному набору из 3 классов (скажем, новости, образование, спорт). В этом случае набор для обучения и набор для тестирования различаются (обучение длинных веб-страниц,...

144 просмотров

twitter classification text-mining document-classification weka

26.06.2022

Алгоритм многоклассовой классификации новостных статей

Я хочу классифицировать новостную статью по категории, к которой она принадлежит. У меня есть 4 категории новостей, например "Технологии, спорт, политика и здоровье". И я собрал около 50 документов для каждой категории в качестве обучающего набора....

1314 просмотров

machine-learning scikit-learn random-forest svm document-classification

17.12.2022

DocumentTermMatrix завершается со странной ошибкой только тогда, когда # терминов › 3000

Мой код ниже работает нормально, если я не использую создание DocumentTermMatrix с более чем 3000 терминов. Эта строка: movie_dict <- findFreqTerms(movie_dtm_train, 8) movie_dtm_hiFq_train <- DocumentTermMatrix(movie_corpus_train,...

1996 просмотров

r sentiment-analysis document-classification tm

04.11.2022

Какой объем текста может обрабатывать Weka?

У меня есть задача анализа настроений, и мне нужно указать, сколько данных (в моем случае текста) может обрабатывать weka. У меня есть корпус из 2500 мнений, уже помеченных. Я знаю, что это небольшой корпус, но мой научный руководитель просит меня...

391 просмотров

machine-learning nlp sentiment-analysis document-classification weka

18.06.2023

Как использовать один и тот же фильтр StringToWordVector для обучающих данных и невидимых данных

Я использовал оболочку LibSVM для weka и успешно создал классификатор для классификации новостей (спорт и бизнес). Я оценил его, используя метод перекрестной проверки, и точность принята. Итак, теперь мне нужно классифицировать новую новостную...

369 просмотров

document-classification weka libsvm

12.11.2022

Scikit-learn 0.15.2 — OneVsRestClassifier не работает из-за того, что недоступна Predict_proba

Я пытаюсь сделать классификацию onevsrest, как показано ниже: classifier = Pipeline([('vectorizer', CountVectorizer()),('tfidf', TfidfTransformer()),('clf', OneVsRestClassifier(SVC(kernel='rbf')))]) classifier.fit(X_train, Y) predicted =...

1567 просмотров

python-2.7 classification scikit-learn document-classification

09.01.2024

Как сделать многоуровневую классификацию вручную?

У меня есть огромный набор данных, и я хотел бы сделать многоуровневую классификацию, в которой каждый объект может быть отнесен к более чем одному классу. Для этого я использую классификатор Naive Bayer в Apache Mahout. Однако он не предназначен...

56 просмотров

machine-learning classification document-classification mahout

21.04.2022

Классификация документов по двум категориям с использованием sklearn

Я возился со sklearn и поддерживаю векторные машины для классификации документов. Категории, в которые я хочу поместить документы, это {курс, не курс}, где курс представляет собой текст веб-страницы, состоящий из классов, предлагаемых по...

261 просмотров

python scikit-learn svm document-classification

02.03.2023

Python - tf-idf предсказывает сходство нового документа

Вдохновленный этим ответом, Я пытаюсь найти косинусное сходство между обученным обученным векторизатором tf-idf и новым документом и вернуть аналогичные документы. Приведенный ниже код находит косинусное сходство первого вектора , а не нового...

2718 просмотров

python machine-learning scikit-learn document-classification tf-idf

28.03.2023

Классификация простого двоичного текста

Я ищу наиболее эффективный и простой способ классифицировать более 800 тысяч научных статей как релевантные (1) или нерелевантные (0) по отношению к определенному концептуальному пространству (здесь: обучение в отношении работы ). Данные:...

670 просмотров

nlp text-classification document-classification n-gram latent-semantic-indexing

02.02.2022

Классификация документов Mallet — сокращение словарного запаса

Я обучил модель классификации документов maxent с помощью Mallet, и оказалось, что она занимает 130 МБ, что слишком много для экземпляра, на котором я хочу ее запустить. Мне было интересно, есть ли способ потенциально уменьшить размер словаря модели,...

161 просмотров

java memory document-classification mallet

24.02.2023

Вопросы по теме 'document-classification'

Похожие вопросы