Публикации по теме 'lemmatization'
Основы НЛП
Мы живем в мире генерации данных, и каждую секунду мы генерируем миллионы данных. Но согласно недавнему анализу, только 21 процент доступной информации представлен в структурированной форме. Когда мы говорим, когда мы чирикаем, когда мы отправляем электронные письма в Whatsapp и в различных других операциях, создаются данные. В текстовой форме, которая носит крайне неструктурированный характер, содержится большая часть этой информации.
Несколько хорошо известных примеров включают..
Вопросы по теме 'lemmatization'
Анализировать текст (лемматизация, редактировать дистанцию)
Мне нужно проанализировать текст на наличие в нем запрещенных слов. Допустим, в черном списке есть слово: «Запретить». Слово имеет много форм. В тексте слово может быть, например: «запрещающий», «запрещенный», «запрещающий». Чтобы привести слово к...
2143 просмотров
schedule
21.02.2023
Может ли WordNetLemmatizer в Nltk выводить слова?
Я хочу найти основы слов с Wordnet . Есть ли у wordnet функция стемминга? Я использую этот импорт для своей основы, но он не работает должным образом.
from nltk.stem.wordnet import WordNetLemmatizer
WordNetLemmatizer().lemmatize('Having','v')
3565 просмотров
schedule
12.01.2024
Инструмент для создания собственных правил лемматизации слов и подобных задач.
Я делаю много обработки естественного языка с немного необычными требованиями. Часто я получаю задания, похожие на лемматизацию — по заданному слову (или просто фрагменту текста) мне нужно найти какие-то закономерности и как-то преобразовать слово....
916 просмотров
schedule
24.01.2023
Сборка лемматизатора: оптимизация скорости
Я строю лемматизатор на питоне. Поскольку мне нужно, чтобы он работал в реальном времени / обрабатывал довольно большой объем данных, скорость обработки имеет существенное значение. Данные: у меня есть все возможные суффиксы, связанные со всеми...
1146 просмотров
schedule
07.03.2024
Лемматизировать французский текст
У меня есть текст на французском языке, который мне нужно каким-то образом обработать. Для этого мне нужно:
Сначала разбейте текст на слова
Затем лемматизируйте эти слова, чтобы не обрабатывать один и тот же корень более одного раза....
25187 просмотров
schedule
08.06.2022
Выделение некоторых форм множественного числа с помощью лемматизатора wordnet не работает
Привет, у меня проблема с nltk (2.0.4): я пытаюсь определить слова «мужчины» или «зубы», но, похоже, это не работает. Вот мой код:
############################################################################
import nltk
from nltk.corpus import...
6495 просмотров
schedule
27.07.2022
Stanford CorpNLP возвращает неправильные результаты
Я пытаюсь лемматизировать с помощью stanford corenlp, следуя этому вопросу. Моя среда: -
Ява 1.7
Затмение 3.4.0
Версия StandfordCoreNLP 3.4.1 ( загружена отсюда ).
мой фрагмент кода: -
//...........lemmatization...
472 просмотров
schedule
17.09.2022
как использовать пространственный лемматизатор, чтобы привести слово к базовой форме
Я новичок в spacy и хочу использовать его функцию лемматизатора, но я не знаю, как ее использовать, например, в строки слов, которые вернут строку с базовой формой слова.
Примеры:
'слова' => 'слово'
«сделал» => «сделал»
Спасибо.
59390 просмотров
schedule
06.08.2022
Ошибка WordNetlemmatizer - все алфавиты лемматизированы
Я пытаюсь лемматизировать свой набор данных для анализа настроений. Что мне делать, чтобы получить ожидаемый результат, а не текущий результат? Входной файл представляет собой CSV-файл, хранящийся как объект DataFrame.
dataset =...
673 просмотров
schedule
15.08.2022
Лемматизация с использованием Spacy
У меня есть список, который содержит предложения.
list = ["I'm hoping to go jogging", "I haven't eaten in a while","where is everybody going"]
Я хочу лемматизировать приведенный выше список и заменить исходные слова словами леммы.
как мне...
1600 просмотров
schedule
20.05.2022
Оптимизация кода определения языка и лемматизация в Python
У меня есть данные отзывов пользователей Amazon в формате JSON, которые я импортирую в фреймворк данных pandas и использую его для обучения модели для классификации текста. Я пытаюсь предварительно обработать текст отзыва пользователя перед обучением...
645 просмотров
schedule
15.07.2023
Как правильно установить индекс в Elasticsearch (5.2.0), чтобы использовать транслитерацию и лемматизацию?
Я пытаюсь правильно установить индекс в Elasticsearch (V5.2.0) и использовать преимущества лемматизации. Мой индекс выглядит так:
PUT /icu
{
"settings":{
"index":{
"analysis":{
"filter":{...
86 просмотров
schedule
31.10.2022
Лемматизация на CountVectorizer не удаляет стоп-слова
Я пытаюсь добавить лематизацию в CountVectorizer из Skit-learn следующим образом.
import nltk
from pattern.es import lemma
from nltk import word_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import...
5052 просмотров
schedule
12.07.2022
Лемматизация панд (Python)
Я новичок в Pandas и пытаюсь понять, как лемматизировать один столбец моего фрейма данных. Возьмем следующий пример (это некоторый текст после удаления (не)распространенного слова, который я хотел бы лемматизировать):
0 хорошо нуждается в...
2895 просмотров
schedule
05.01.2023
Уменьшает ли механизм лемматизации размер корпуса?
Уважаемые участники сообщества,
Во время предварительной обработки данных, после разделения raw_data на токены, я использовал популярный WordNet Lemmatizer для создания стеблей. Я провожу эксперименты с набором данных, содержащим 18953 токена....
100 просмотров
schedule
05.06.2023
Порядок операций конвейера spaCy nlp
Есть ли у кого-нибудь хронологический список операций, выполняемых
import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(text)
Я вижу основные компоненты с nlp.pipe_names
['tagger', 'parser', 'ner']
и алфавитный список...
1540 просмотров
schedule
21.03.2024
Лемматизация немецких глаголов с корпусом Tiger
Недавно я тренируюсь построить сервис для лемматизации немецких слов.
Я нашел очень хорошую статью здесь
После того, как я проделал все шаги, описанные в статье, мой сервис работает неплохо, но во время тестирования я заметил, что некоторые...
281 просмотров
schedule
10.06.2022
Pos Tag Lemmatize дает только одну строку на выходе
Используя Pos Tag для токенизации данных, он преобразуется в слово pos_tag. При передаче того же для лемматизации лемматизируется только первое значение.
Фрейм данных с двумя столбцами-
ID Text
1 Lemmatization is an interesting part...
183 просмотров
schedule
18.12.2022
Предоставление извлеченной леммы для каждого предложения с помощью treetaggerwrapper не работает: возвращает список слов вместо списка слов для каждого предложения
Вот моя функция, которая должна лемматизировать список предложений, но на выходе получается список всех слов, но не список каждого лемматизированного предложения.
Код для функции лемматизации
tagger = treetaggerwrapper.TreeTagger(TAGLANG='fr')...
733 просмотров
schedule
04.11.2022
Выполняет ли keras-tokenizer задачу лемматизации и стемминга?
Предоставляет ли токенизатор keras такие функции, как стемминг и лемметизация? Если да, то как это сделать? Требуется интуитивное понимание. Кроме того, что делает text_to_sequence в этом?
1243 просмотров
schedule
13.04.2022