Публикации по теме 'lemmatization'


Основы НЛП
Мы живем в мире генерации данных, и каждую секунду мы генерируем миллионы данных. Но согласно недавнему анализу, только 21 процент доступной информации представлен в структурированной форме. Когда мы говорим, когда мы чирикаем, когда мы отправляем электронные письма в Whatsapp и в различных других операциях, создаются данные. В текстовой форме, которая носит крайне неструктурированный характер, содержится большая часть этой информации. Несколько хорошо известных примеров включают..

Вопросы по теме 'lemmatization'

Анализировать текст (лемматизация, редактировать дистанцию)
Мне нужно проанализировать текст на наличие в нем запрещенных слов. Допустим, в черном списке есть слово: «Запретить». Слово имеет много форм. В тексте слово может быть, например: «запрещающий», «запрещенный», «запрещающий». Чтобы привести слово к...
2143 просмотров
schedule 21.02.2023

Может ли WordNetLemmatizer в Nltk выводить слова?
Я хочу найти основы слов с Wordnet . Есть ли у wordnet функция стемминга? Я использую этот импорт для своей основы, но он не работает должным образом. from nltk.stem.wordnet import WordNetLemmatizer WordNetLemmatizer().lemmatize('Having','v')
3565 просмотров
schedule 12.01.2024

Инструмент для создания собственных правил лемматизации слов и подобных задач.
Я делаю много обработки естественного языка с немного необычными требованиями. Часто я получаю задания, похожие на лемматизацию — по заданному слову (или просто фрагменту текста) мне нужно найти какие-то закономерности и как-то преобразовать слово....
916 просмотров
schedule 24.01.2023

Сборка лемматизатора: оптимизация скорости
Я строю лемматизатор на питоне. Поскольку мне нужно, чтобы он работал в реальном времени / обрабатывал довольно большой объем данных, скорость обработки имеет существенное значение. Данные: у меня есть все возможные суффиксы, связанные со всеми...
1146 просмотров
schedule 07.03.2024

Лемматизировать французский текст
У меня есть текст на французском языке, который мне нужно каким-то образом обработать. Для этого мне нужно: Сначала разбейте текст на слова Затем лемматизируйте эти слова, чтобы не обрабатывать один и тот же корень более одного раза....
25187 просмотров
schedule 08.06.2022

Выделение некоторых форм множественного числа с помощью лемматизатора wordnet не работает
Привет, у меня проблема с nltk (2.0.4): я пытаюсь определить слова «мужчины» или «зубы», но, похоже, это не работает. Вот мой код: ############################################################################ import nltk from nltk.corpus import...
6495 просмотров

Stanford CorpNLP возвращает неправильные результаты
Я пытаюсь лемматизировать с помощью stanford corenlp, следуя этому вопросу. Моя среда: - Ява 1.7 Затмение 3.4.0 Версия StandfordCoreNLP 3.4.1 ( загружена отсюда ). мой фрагмент кода: - //...........lemmatization...
472 просмотров

как использовать пространственный лемматизатор, чтобы привести слово к базовой форме
Я новичок в spacy и хочу использовать его функцию лемматизатора, но я не знаю, как ее использовать, например, в строки слов, которые вернут строку с базовой формой слова. Примеры: 'слова' => 'слово' «сделал» => «сделал» Спасибо.
59390 просмотров
schedule 06.08.2022

Ошибка WordNetlemmatizer - все алфавиты лемматизированы
Я пытаюсь лемматизировать свой набор данных для анализа настроений. Что мне делать, чтобы получить ожидаемый результат, а не текущий результат? Входной файл представляет собой CSV-файл, хранящийся как объект DataFrame. dataset =...
673 просмотров
schedule 15.08.2022

Лемматизация с использованием Spacy
У меня есть список, который содержит предложения. list = ["I'm hoping to go jogging", "I haven't eaten in a while","where is everybody going"] Я хочу лемматизировать приведенный выше список и заменить исходные слова словами леммы. как мне...
1600 просмотров
schedule 20.05.2022

Оптимизация кода определения языка и лемматизация в Python
У меня есть данные отзывов пользователей Amazon в формате JSON, которые я импортирую в фреймворк данных pandas и использую его для обучения модели для классификации текста. Я пытаюсь предварительно обработать текст отзыва пользователя перед обучением...
645 просмотров
schedule 15.07.2023

Как правильно установить индекс в Elasticsearch (5.2.0), чтобы использовать транслитерацию и лемматизацию?
Я пытаюсь правильно установить индекс в Elasticsearch (V5.2.0) и использовать преимущества лемматизации. Мой индекс выглядит так: PUT /icu { "settings":{ "index":{ "analysis":{ "filter":{...
86 просмотров

Лемматизация на CountVectorizer не удаляет стоп-слова
Я пытаюсь добавить лематизацию в CountVectorizer из Skit-learn следующим образом. import nltk from pattern.es import lemma from nltk import word_tokenize from nltk.corpus import stopwords from sklearn.feature_extraction.text import...
5052 просмотров

Лемматизация панд (Python)
Я новичок в Pandas и пытаюсь понять, как лемматизировать один столбец моего фрейма данных. Возьмем следующий пример (это некоторый текст после удаления (не)распространенного слова, который я хотел бы лемматизировать): 0 хорошо нуждается в...
2895 просмотров
schedule 05.01.2023

Уменьшает ли механизм лемматизации размер корпуса?
Уважаемые участники сообщества, Во время предварительной обработки данных, после разделения raw_data на токены, я использовал популярный WordNet Lemmatizer для создания стеблей. Я провожу эксперименты с набором данных, содержащим 18953 токена....
100 просмотров

Порядок операций конвейера spaCy nlp
Есть ли у кого-нибудь хронологический список операций, выполняемых import spacy nlp = spacy.load('en_core_web_sm') doc = nlp(text) Я вижу основные компоненты с nlp.pipe_names ['tagger', 'parser', 'ner'] и алфавитный список...
1540 просмотров
schedule 21.03.2024

Лемматизация немецких глаголов с корпусом Tiger
Недавно я тренируюсь построить сервис для лемматизации немецких слов. Я нашел очень хорошую статью здесь После того, как я проделал все шаги, описанные в статье, мой сервис работает неплохо, но во время тестирования я заметил, что некоторые...
281 просмотров
schedule 10.06.2022

Pos Tag Lemmatize дает только одну строку на выходе
Используя Pos Tag для токенизации данных, он преобразуется в слово pos_tag. При передаче того же для лемматизации лемматизируется только первое значение. Фрейм данных с двумя столбцами- ID Text 1 Lemmatization is an interesting part...
183 просмотров
schedule 18.12.2022

Предоставление извлеченной леммы для каждого предложения с помощью treetaggerwrapper не работает: возвращает список слов вместо списка слов для каждого предложения
Вот моя функция, которая должна лемматизировать список предложений, но на выходе получается список всех слов, но не список каждого лемматизированного предложения. Код для функции лемматизации tagger = treetaggerwrapper.TreeTagger(TAGLANG='fr')...
733 просмотров

Выполняет ли keras-tokenizer задачу лемматизации и стемминга?
Предоставляет ли токенизатор keras такие функции, как стемминг и лемметизация? Если да, то как это сделать? Требуется интуитивное понимание. Кроме того, что делает text_to_sequence в этом?
1243 просмотров
schedule 13.04.2022