Вопросы по теме 'document-classification'

Классификация текстов SVM Multiclass
Я хочу классифицировать набор данных новостей, а обучающие данные классифицируются с помощью предметного кода IPTC (иерархическая классификация). В моем проекте я должен использовать svm. Я выполнил все операции по извлечению признаков, выделению...
5562 просмотров
schedule 31.12.2022

Ссылки на книги и статьи, необходимые для начала работы с классификацией документов
Я заинтересован в выполнении проекта по классификации документов и искал книги, которые могут быть полезны для теоретических частей анализа текста, связанных с этим, или примеры статей, описывающих процесс перехода от обучающих данных с...
236 просмотров

Классификация документов с неполным обучающим набором
Подскажите пожалуйста. У меня есть коллекция документов, которые имеют общий атрибут (например, появляется слово French), некоторые из этих документов были отмечены как не относящиеся к этой коллекции (например, появляется французский поцелуй), но не...
477 просмотров

Scikit-learn: BernoulliNB, v0.10 и v0.13: очень разные результаты
Это что-то вроде продолжения этой темы , где я получал ошибочные результаты с классификатором GaussianNB, которые оказались из-за того, что у меня был scikit-learn v0.10 на виртуальной машине Linux, над которой я проводил эксперименты. Вместо этого...
293 просмотров

Классификация наивных байесовских текстов терпит неудачу в одной категории. Почему?
Я реализую наивный байесовский классификатор для обнаружения текстовых категорий. У меня 37 категорий, и у меня точность около 36% на моем тестовом наборе. Я хочу повысить точность, поэтому решил реализовать 37 двусторонних классификаторов, как...
1880 просмотров

Как нормализовать векторы tf-idf для SVM?
Я использую поддержку векторных машин для классификация документов . Мой набор функций для каждого документа - это вектор tf-idf . У меня есть документы M с каждым вектором tf-idf размера N. Предоставляя матрицу M * N. Размер M составляет...
2511 просмотров

N-кратная перекрестная проверка в weka для классификации твитов
Моя цель - использовать weka для классификации множества твитов по заранее определенному набору из 3 классов (скажем, новости, образование, спорт). В этом случае набор для обучения и набор для тестирования различаются (обучение длинных веб-страниц,...
144 просмотров

Алгоритм многоклассовой классификации новостных статей
Я хочу классифицировать новостную статью по категории, к которой она принадлежит. У меня есть 4 категории новостей, например "Технологии, спорт, политика и здоровье". И я собрал около 50 документов для каждой категории в качестве обучающего набора....
1314 просмотров

DocumentTermMatrix завершается со странной ошибкой только тогда, когда # терминов › 3000
Мой код ниже работает нормально, если я не использую создание DocumentTermMatrix с более чем 3000 терминов. Эта строка: movie_dict <- findFreqTerms(movie_dtm_train, 8) movie_dtm_hiFq_train <- DocumentTermMatrix(movie_corpus_train,...
1996 просмотров

Какой объем текста может обрабатывать Weka?
У меня есть задача анализа настроений, и мне нужно указать, сколько данных (в моем случае текста) может обрабатывать weka. У меня есть корпус из 2500 мнений, уже помеченных. Я знаю, что это небольшой корпус, но мой научный руководитель просит меня...
391 просмотров

Как использовать один и тот же фильтр StringToWordVector для обучающих данных и невидимых данных
Я использовал оболочку LibSVM для weka и успешно создал классификатор для классификации новостей (спорт и бизнес). Я оценил его, используя метод перекрестной проверки, и точность принята. Итак, теперь мне нужно классифицировать новую новостную...
369 просмотров
schedule 12.11.2022

Scikit-learn 0.15.2 — OneVsRestClassifier не работает из-за того, что недоступна Predict_proba
Я пытаюсь сделать классификацию onevsrest, как показано ниже: classifier = Pipeline([('vectorizer', CountVectorizer()),('tfidf', TfidfTransformer()),('clf', OneVsRestClassifier(SVC(kernel='rbf')))]) classifier.fit(X_train, Y) predicted =...
1567 просмотров

Как сделать многоуровневую классификацию вручную?
У меня есть огромный набор данных, и я хотел бы сделать многоуровневую классификацию, в которой каждый объект может быть отнесен к более чем одному классу. Для этого я использую классификатор Naive Bayer в Apache Mahout. Однако он не предназначен...
56 просмотров

Классификация документов по двум категориям с использованием sklearn
Я возился со sklearn и поддерживаю векторные машины для классификации документов. Категории, в которые я хочу поместить документы, это {курс, не курс}, где курс представляет собой текст веб-страницы, состоящий из классов, предлагаемых по...
261 просмотров

Python - tf-idf предсказывает сходство нового документа
Вдохновленный этим ответом, Я пытаюсь найти косинусное сходство между обученным обученным векторизатором tf-idf и новым документом и вернуть аналогичные документы. Приведенный ниже код находит косинусное сходство первого вектора , а не нового...
2718 просмотров

Классификация простого двоичного текста
Я ищу наиболее эффективный и простой способ классифицировать более 800 тысяч научных статей как релевантные (1) или нерелевантные (0) по отношению к определенному концептуальному пространству (здесь: обучение в отношении работы ). Данные:...
670 просмотров

Классификация документов Mallet — сокращение словарного запаса
Я обучил модель классификации документов maxent с помощью Mallet, и оказалось, что она занимает 130 МБ, что слишком много для экземпляра, на котором я хочу ее запустить. Мне было интересно, есть ли способ потенциально уменьшить размер словаря модели,...
161 просмотров