Публикации по теме 'stemming'


Основы НЛП
Мы живем в мире генерации данных, и каждую секунду мы генерируем миллионы данных. Но согласно недавнему анализу, только 21 процент доступной информации представлен в структурированной форме. Когда мы говорим, когда мы чирикаем, когда мы отправляем электронные письма в Whatsapp и в различных других операциях, создаются данные. В текстовой форме, которая носит крайне неструктурированный характер, содержится большая часть этой информации. Несколько хорошо известных примеров включают..

Вопросы по теме 'stemming'

Может ли WordNetLemmatizer в Nltk выводить слова?
Я хочу найти основы слов с Wordnet . Есть ли у wordnet функция стемминга? Я использую этот импорт для своей основы, но он не работает должным образом. from nltk.stem.wordnet import WordNetLemmatizer WordNetLemmatizer().lemmatize('Having','v')
3565 просмотров
schedule 12.01.2024

Почему в Solr «построить» не означает «строить», а «строить»?
Я пытаюсь понять две вещи в этой публикации: Почему «построено» НЕ связано с «построением», даже если в определении типа поля определен стеммер. Тем не менее, «строительство» сводится к «строительству». Как использовать Luke для изучения...
1839 просмотров
schedule 03.08.2023

Инструмент для создания собственных правил лемматизации слов и подобных задач.
Я делаю много обработки естественного языка с немного необычными требованиями. Часто я получаю задания, похожие на лемматизацию — по заданному слову (или просто фрагменту текста) мне нужно найти какие-то закономерности и как-то преобразовать слово....
916 просмотров
schedule 24.01.2023

Пакет интеллектуального анализа текста R, добавляющий новую функцию в getTransformation
Я пытаюсь добавить новый стеммер, который работает с использованием метода поиска в таблице. если h — это хэш, содержащий операцию формирования основы, он кодируется следующим образом: ключи — это слова до выделения основы, а значения — слова после...
1164 просмотров
schedule 03.07.2023

Elasticsearch: результаты в единственном и множественном числе
В нашем сопоставлении мы использовали фильтр стеммера minimal_english . Это делается для того, чтобы для поиска были доступны только слова в единственном и множественном числе, а не похожие слова. например. Test и Tests должны быть доступны...
2491 просмотров
schedule 31.10.2022

Использование основы в запросе SOLR
Я настроил SOLR и добавил документ в пример «коллекция1». <doc> <str name="id">3007WFP</str> <str name="name">Fishing</str> <str name="type">Ladies</str> </doc> Я могу запросить его...
5047 просмотров
schedule 14.06.2022

Библиотека Java для извлечения ключевых слов из входящего текста
Я ищу библиотеку Java для извлечения ключевых слов из блока текста. Процесс должен быть следующим: остановить очистку слов -> определение корней -> поиск ключевых слов на основе статистической информации по английской лингвистике - то есть, если...
21944 просмотров
schedule 31.08.2022

Выделение некоторых форм множественного числа с помощью лемматизатора wordnet не работает
Привет, у меня проблема с nltk (2.0.4): я пытаюсь определить слова «мужчины» или «зубы», но, похоже, это не работает. Вот мой код: ############################################################################ import nltk from nltk.corpus import...
6495 просмотров

Удаление стемминга и стоп-слов в Lucene 4.7 для арабского языка
Не могли бы вы помочь мне, как я могу использовать стеммер Lucene и удаление стоп-слов для арабского языка? Кроме того, я хочу знать оба: Используйте мой собственный список стоп-слов. Используйте список Lucene. Заранее спасибо....
1500 просмотров
schedule 23.05.2022

Какой лучший метод стемминга в Python?
Я перепробовал все методы nltk для стемминга, но в некоторых словах он дает странные результаты. Примеры Он часто обрезает слова, когда этого не следует делать: пудель => пудель статья или не очень хорошо: легко и просто не...
64053 просмотров
schedule 18.06.2023

Внедрение Кстеммера
Во-первых, я благодарю всех, кто находит время, чтобы помочь. Интернет-сообщество очень важно для обучения. Общая цель: я ввожу файл .txt, останавливая его, используя сборку Java KStemmer CIIR 2003 в Eclipse и вывод списка слов с основой в...
453 просмотров
schedule 19.09.2022

StemDocument R интеллектуальный анализ текста
Мои данные представляют собой текстовый файл и выглядят следующим образом: слова number_doc обзор 1 клиент 1 магазин 1 маржа 1 цена 2 акции 2 экономика 2 Номера документов отсортированы (от наименьшего к наибольшему). Теперь я хочу для...
4300 просмотров
schedule 29.01.2023

Существуют ли стеммеры Lucene, которые обрабатывают шекспировский английский?
Я пытаюсь проиндексировать некоторые старые документы для поиска - 16, 17, 18 века. Современные стеммеры, кажется, не справляются с устаревшими окончаниями слов: работает, живет, ходит. Существуют ли стеммеры, специализирующиеся на английском...
79 просмотров
schedule 12.12.2022

Каким должен быть результат образования слова с апострофом?
Я использую nltk.stem.porter.PorterStemmer в python, чтобы получить основы слов. Когда я получаю основу «женщины» и «женщины», я получаю соответственно разные результаты: «женщины» и «женщины». Для моих целей мне нужно, чтобы оба слова имели...
978 просмотров
schedule 18.07.2023

Могу ли я сделать этот код python со снежком?
Длина слова 5. Я хочу удалить букву в позиции 0 и букву в позиции 3 с python выглядит так: word = word[1:3] + word[4] #this is with python Вопрос в том, как я могу сделать это со снежком?
60 просмотров
schedule 29.04.2022

Основание NLTK не проходит простой случай
Я новичок в NLTK, и я использую функцию парадигматического определения в случаях поиска корней. У меня есть простой пример предложения для обработки: «Включите свет». Я хочу посмотреть, может ли стеммер NLTK помочь мне отфильтровать опечатку...
426 просмотров
schedule 04.11.2022

Создание английских слов с помощью Lucene 6
Я хочу сократить английские слова с помощью Lucene 6.5. Я видел немало примеров использования Lucene для достижения этой цели. Однако примеры, которые я видел до сих пор, похоже, используют старые версии Lucene, и воспроизвести то же самое с помощью...
1799 просмотров
schedule 22.03.2022

Snowball Stemmer: плохой французский стеммер
Я имею дело с некоторыми задачами nlp. Мои входные данные представляют собой текст на французском языке, поэтому в моем контексте можно использовать только Snowball Stemmer. Но, к сожалению, он продолжает давать мне плохие стебли, так как не удаляет...
2185 просмотров
schedule 29.05.2022

Преобразование слова с основой в корневое (или неспрягаемое) слово
Я использую NLTK для извлечения слов из текста и выполняю базовую аналитику этих слов. Однако для отображения я хочу преобразовать эти основы обратно в «корневое» слово (но не обратно в ту же форму или спряжение, с которых оно началось). Например:...
219 просмотров
schedule 07.06.2022

Анализатор английского языка (стемминг) в ElasticSearch не работает
Я попытался применить собственный анализатор английского языка, а также стандартный анализатор английского языка в elasticsearch. Моя цель - особенно использовать стемминг. Допустим, у меня в документах есть следующие слова: обложки, оттиски....
1905 просмотров
schedule 18.02.2023