Статьи по тематике stemming

Публикации по теме 'stemming'

Основы НЛП

Мы живем в мире генерации данных, и каждую секунду мы генерируем миллионы данных. Но согласно недавнему анализу, только 21 процент доступной информации представлен в структурированной форме. Когда мы говорим, когда мы чирикаем, когда мы отправляем электронные письма в Whatsapp и в различных других операциях, создаются данные. В текстовой форме, которая носит крайне неструктурированный характер, содержится большая часть этой информации. Несколько хорошо известных примеров включают..

Вопросы по теме 'stemming'

Может ли WordNetLemmatizer в Nltk выводить слова?

Я хочу найти основы слов с Wordnet . Есть ли у wordnet функция стемминга? Я использую этот импорт для своей основы, но он не работает должным образом. from nltk.stem.wordnet import WordNetLemmatizer WordNetLemmatizer().lemmatize('Having','v')

3565 просмотров

12.01.2024

Почему в Solr «построить» не означает «строить», а «строить»?

Я пытаюсь понять две вещи в этой публикации: Почему «построено» НЕ связано с «построением», даже если в определении типа поля определен стеммер. Тем не менее, «строительство» сводится к «строительству». Как использовать Luke для изучения...

1839 просмотров

solr lucene porter-stemmer stemming

03.08.2023

Инструмент для создания собственных правил лемматизации слов и подобных задач.

Я делаю много обработки естественного языка с немного необычными требованиями. Часто я получаю задания, похожие на лемматизацию — по заданному слову (или просто фрагменту текста) мне нужно найти какие-то закономерности и как-то преобразовать слово....

916 просмотров

java nlp regex lemmatization stemming

24.01.2023

Пакет интеллектуального анализа текста R, добавляющий новую функцию в getTransformation

Я пытаюсь добавить новый стеммер, который работает с использованием метода поиска в таблице. если h — это хэш, содержащий операцию формирования основы, он кодируется следующим образом: ключи — это слова до выделения основы, а значения — слова после...

1164 просмотров

r text-mining corpus stemming

03.07.2023

Elasticsearch: результаты в единственном и множественном числе

В нашем сопоставлении мы использовали фильтр стеммера minimal_english . Это делается для того, чтобы для поиска были доступны только слова в единственном и множественном числе, а не похожие слова. например. Test и Tests должны быть доступны...

2491 просмотров

stemming elasticsearch

31.10.2022

Использование основы в запросе SOLR

Я настроил SOLR и добавил документ в пример «коллекция1». <doc> <str name="id">3007WFP</str> <str name="name">Fishing</str> <str name="type">Ladies</str> </doc> Я могу запросить его...

5047 просмотров

solr stemming

14.06.2022

Библиотека Java для извлечения ключевых слов из входящего текста

Я ищу библиотеку Java для извлечения ключевых слов из блока текста. Процесс должен быть следующим: остановить очистку слов -> определение корней -> поиск ключевых слов на основе статистической информации по английской лингвистике - то есть, если...

21944 просмотров

java nlp extract keyword stemming

31.08.2022

Выделение некоторых форм множественного числа с помощью лемматизатора wordnet не работает

Привет, у меня проблема с nltk (2.0.4): я пытаюсь определить слова «мужчины» или «зубы», но, похоже, это не работает. Вот мой код: ############################################################################ import nltk from nltk.corpus import...

6495 просмотров

nltk wordnet lemmatization stemming python-2.6

27.07.2022

Удаление стемминга и стоп-слов в Lucene 4.7 для арабского языка

Не могли бы вы помочь мне, как я могу использовать стеммер Lucene и удаление стоп-слов для арабского языка? Кроме того, я хочу знать оба: Используйте мой собственный список стоп-слов. Используйте список Lucene. Заранее спасибо....

1500 просмотров

lucene stop-words stemming

23.05.2022

Какой лучший метод стемминга в Python?

Я перепробовал все методы nltk для стемминга, но в некоторых словах он дает странные результаты. Примеры Он часто обрезает слова, когда этого не следует делать: пудель => пудель статья или не очень хорошо: легко и просто не...

64053 просмотров

python nltk stemming

18.06.2023

Внедрение Кстеммера

Во-первых, я благодарю всех, кто находит время, чтобы помочь. Интернет-сообщество очень важно для обучения. Общая цель: я ввожу файл .txt, останавливая его, используя сборку Java KStemmer CIIR 2003 в Eclipse и вывод списка слов с основой в...

453 просмотров

java eclipse apache stemming

19.09.2022

StemDocument R интеллектуальный анализ текста

Мои данные представляют собой текстовый файл и выглядят следующим образом: слова number_doc обзор 1 клиент 1 магазин 1 маржа 1 цена 2 акции 2 экономика 2 Номера документов отсортированы (от наименьшего к наибольшему). Теперь я хочу для...

4300 просмотров

r tm stemming

29.01.2023

Существуют ли стеммеры Lucene, которые обрабатывают шекспировский английский?

Я пытаюсь проиндексировать некоторые старые документы для поиска - 16, 17, 18 века. Современные стеммеры, кажется, не справляются с устаревшими окончаниями слов: работает, живет, ходит. Существуют ли стеммеры, специализирующиеся на английском...

79 просмотров

nlp solr lucene stemming

12.12.2022

Каким должен быть результат образования слова с апострофом?

Я использую nltk.stem.porter.PorterStemmer в python, чтобы получить основы слов. Когда я получаю основу «женщины» и «женщины», я получаю соответственно разные результаты: «женщины» и «женщины». Для моих целей мне нужно, чтобы оба слова имели...

978 просмотров

python nltk stem stemming

18.07.2023

Могу ли я сделать этот код python со снежком?

Длина слова 5. Я хочу удалить букву в позиции 0 и букву в позиции 3 с python выглядит так: word = word[1:3] + word[4] #this is with python Вопрос в том, как я могу сделать это со снежком?

60 просмотров

stemming snowball

29.04.2022

Основание NLTK не проходит простой случай

Я новичок в NLTK, и я использую функцию парадигматического определения в случаях поиска корней. У меня есть простой пример предложения для обработки: «Включите свет». Я хочу посмотреть, может ли стеммер NLTK помочь мне отфильтровать опечатку...

426 просмотров

python nlp nltk spell-checking stemming

04.11.2022

Создание английских слов с помощью Lucene 6

Я хочу сократить английские слова с помощью Lucene 6.5. Я видел немало примеров использования Lucene для достижения этой цели. Однако примеры, которые я видел до сих пор, похоже, используют старые версии Lucene, и воспроизвести то же самое с помощью...

1799 просмотров

java lucene stemming

22.03.2022

Snowball Stemmer: плохой французский стеммер

Я имею дело с некоторыми задачами nlp. Мои входные данные представляют собой текст на французском языке, поэтому в моем контексте можно использовать только Snowball Stemmer. Но, к сожалению, он продолжает давать мне плохие стебли, так как не удаляет...

2185 просмотров

python nltk french stemming snowball

29.05.2022

Преобразование слова с основой в корневое (или неспрягаемое) слово

Я использую NLTK для извлечения слов из текста и выполняю базовую аналитику этих слов. Однако для отображения я хочу преобразовать эти основы обратно в «корневое» слово (но не обратно в ту же форму или спряжение, с которых оно началось). Например:...

219 просмотров

python nlp nltk stemming

07.06.2022

Анализатор английского языка (стемминг) в ElasticSearch не работает

Я попытался применить собственный анализатор английского языка, а также стандартный анализатор английского языка в elasticsearch. Моя цель - особенно использовать стемминг. Допустим, у меня в документах есть следующие слова: обложки, оттиски....

1905 просмотров

analyzer stemming

18.02.2023

Публикации по теме 'stemming'

Основы НЛП

Вопросы по теме 'stemming'

Похожие вопросы