Статьи по тематике lemmatization

Публикации по теме 'lemmatization'

Основы НЛП

Мы живем в мире генерации данных, и каждую секунду мы генерируем миллионы данных. Но согласно недавнему анализу, только 21 процент доступной информации представлен в структурированной форме. Когда мы говорим, когда мы чирикаем, когда мы отправляем электронные письма в Whatsapp и в различных других операциях, создаются данные. В текстовой форме, которая носит крайне неструктурированный характер, содержится большая часть этой информации. Несколько хорошо известных примеров включают..

Вопросы по теме 'lemmatization'

Анализировать текст (лемматизация, редактировать дистанцию)

Мне нужно проанализировать текст на наличие в нем запрещенных слов. Допустим, в черном списке есть слово: «Запретить». Слово имеет много форм. В тексте слово может быть, например: «запрещающий», «запрещенный», «запрещающий». Чтобы привести слово к...

2143 просмотров

c# nlp similarity lemmatization

21.02.2023

Может ли WordNetLemmatizer в Nltk выводить слова?

Я хочу найти основы слов с Wordnet . Есть ли у wordnet функция стемминга? Я использую этот импорт для своей основы, но он не работает должным образом. from nltk.stem.wordnet import WordNetLemmatizer WordNetLemmatizer().lemmatize('Having','v')

3565 просмотров

python nltk wordnet lemmatization stemming

12.01.2024

Инструмент для создания собственных правил лемматизации слов и подобных задач.

Я делаю много обработки естественного языка с немного необычными требованиями. Часто я получаю задания, похожие на лемматизацию — по заданному слову (или просто фрагменту текста) мне нужно найти какие-то закономерности и как-то преобразовать слово....

916 просмотров

java nlp regex lemmatization stemming

24.01.2023

Сборка лемматизатора: оптимизация скорости

Я строю лемматизатор на питоне. Поскольку мне нужно, чтобы он работал в реальном времени / обрабатывал довольно большой объем данных, скорость обработки имеет существенное значение. Данные: у меня есть все возможные суффиксы, связанные со всеми...

1146 просмотров

python nlp optimization lemmatization

07.03.2024

Лемматизировать французский текст

У меня есть текст на французском языке, который мне нужно каким-то образом обработать. Для этого мне нужно: Сначала разбейте текст на слова Затем лемматизируйте эти слова, чтобы не обрабатывать один и тот же корень более одного раза....

25187 просмотров

python nltk lemmatization

08.06.2022

Выделение некоторых форм множественного числа с помощью лемматизатора wordnet не работает

Привет, у меня проблема с nltk (2.0.4): я пытаюсь определить слова «мужчины» или «зубы», но, похоже, это не работает. Вот мой код: ############################################################################ import nltk from nltk.corpus import...

6495 просмотров

nltk wordnet lemmatization stemming python-2.6

27.07.2022

Stanford CorpNLP возвращает неправильные результаты

Я пытаюсь лемматизировать с помощью stanford corenlp, следуя этому вопросу. Моя среда: - Ява 1.7 Затмение 3.4.0 Версия StandfordCoreNLP 3.4.1 ( загружена отсюда ). мой фрагмент кода: - //...........lemmatization...

472 просмотров

stanford-nlp lemmatization java-7 eclipse-3.4

17.09.2022

как использовать пространственный лемматизатор, чтобы привести слово к базовой форме

Я новичок в spacy и хочу использовать его функцию лемматизатора, но я не знаю, как ее использовать, например, в строки слов, которые вернут строку с базовой формой слова. Примеры: 'слова' => 'слово' «сделал» => «сделал» Спасибо.

59390 просмотров

python spacy nltk lemmatization

06.08.2022

Ошибка WordNetlemmatizer - все алфавиты лемматизированы

Я пытаюсь лемматизировать свой набор данных для анализа настроений. Что мне делать, чтобы получить ожидаемый результат, а не текущий результат? Входной файл представляет собой CSV-файл, хранящийся как объект DataFrame. dataset =...

673 просмотров

python pandas nltk wordnet lemmatization

15.08.2022

Лемматизация с использованием Spacy

У меня есть список, который содержит предложения. list = ["I'm hoping to go jogging", "I haven't eaten in a while","where is everybody going"] Я хочу лемматизировать приведенный выше список и заменить исходные слова словами леммы. как мне...

1600 просмотров

lemmatization

20.05.2022

Оптимизация кода определения языка и лемматизация в Python

У меня есть данные отзывов пользователей Amazon в формате JSON, которые я импортирую в фреймворк данных pandas и использую его для обучения модели для классификации текста. Я пытаюсь предварительно обработать текст отзыва пользователя перед обучением...

645 просмотров

python pandas nltk lemmatization textblob

15.07.2023

Как правильно установить индекс в Elasticsearch (5.2.0), чтобы использовать транслитерацию и лемматизацию?

Я пытаюсь правильно установить индекс в Elasticsearch (V5.2.0) и использовать преимущества лемматизации. Мой индекс выглядит так: PUT /icu { "settings":{ "index":{ "analysis":{ "filter":{...

86 просмотров

lemmatization transliteration elasticsearch

31.10.2022

Лемматизация на CountVectorizer не удаляет стоп-слова

Я пытаюсь добавить лематизацию в CountVectorizer из Skit-learn следующим образом. import nltk from pattern.es import lemma from nltk import word_tokenize from nltk.corpus import stopwords from sklearn.feature_extraction.text import...

5052 просмотров

scikit-learn nltk countvectorizer stop-words lemmatization

12.07.2022

Лемматизация панд (Python)

Я новичок в Pandas и пытаюсь понять, как лемматизировать один столбец моего фрейма данных. Возьмем следующий пример (это некоторый текст после удаления (не)распространенного слова, который я хотел бы лемматизировать): 0 хорошо нуждается в...

2895 просмотров

python pandas lemmatization

05.01.2023

Уменьшает ли механизм лемматизации размер корпуса?

Уважаемые участники сообщества, Во время предварительной обработки данных, после разделения raw_data на токены, я использовал популярный WordNet Lemmatizer для создания стеблей. Я провожу эксперименты с набором данных, содержащим 18953 токена....

100 просмотров

python-3.x python nltk wordnet lemmatization

05.06.2023

Порядок операций конвейера spaCy nlp

Есть ли у кого-нибудь хронологический список операций, выполняемых import spacy nlp = spacy.load('en_core_web_sm') doc = nlp(text) Я вижу основные компоненты с nlp.pipe_names ['tagger', 'parser', 'ner'] и алфавитный список...

1540 просмотров

python nlp spacy lemmatization

21.03.2024

Лемматизация немецких глаголов с корпусом Tiger

Недавно я тренируюсь построить сервис для лемматизации немецких слов. Я нашел очень хорошую статью здесь После того, как я проделал все шаги, описанные в статье, мой сервис работает неплохо, но во время тестирования я заметил, что некоторые...

281 просмотров

nlp nltk lemmatization

10.06.2022

Pos Tag Lemmatize дает только одну строку на выходе

Используя Pos Tag для токенизации данных, он преобразуется в слово pos_tag. При передаче того же для лемматизации лемматизируется только первое значение. Фрейм данных с двумя столбцами- ID Text 1 Lemmatization is an interesting part...

183 просмотров

nlp nltk lemmatization

18.12.2022

Предоставление извлеченной леммы для каждого предложения с помощью treetaggerwrapper не работает: возвращает список слов вместо списка слов для каждого предложения

Вот моя функция, которая должна лемматизировать список предложений, но на выходе получается список всех слов, но не список каждого лемматизированного предложения. Код для функции лемматизации tagger = treetaggerwrapper.TreeTagger(TAGLANG='fr')...

733 просмотров

python-3.x nlp list-comprehension lemmatization treetagger

04.11.2022

Выполняет ли keras-tokenizer задачу лемматизации и стемминга?

Предоставляет ли токенизатор keras такие функции, как стемминг и лемметизация? Если да, то как это сделать? Требуется интуитивное понимание. Кроме того, что делает text_to_sequence в этом?

1243 просмотров

keras nlp tokenize lemmatization stemming

13.04.2022

Публикации по теме 'lemmatization'

Основы НЛП

Вопросы по теме 'lemmatization'

Похожие вопросы