Вопросы по теме 'stop-words'

Как сбросить стоп-слова в MYSQL?
Я хочу сбросить список стоп-слов в mysql для поиска FULLTEXT. Я установил сервер WAMP в своей системе, в которой есть phpmyadmin для доступа к mysql. Но я не знаю, как сбросить стоп-слово в phpmyadmin. Может кто-нибудь, пожалуйста, скажите мне, как...
9221 просмотров

Обоснование полнотекстовых стоп-слов MySQL
В настоящее время я пытаюсь разработать базовый полнотекстовый поиск для своего веб-сайта и заметил, что некоторые слова, такие как «относительно», перечислены в качестве стоп-слов для полнотекстового поиска MySQL. Меня это не слишком беспокоит...
1884 просмотров
schedule 12.09.2022

Почему эти слова считаются игнорируемыми?
У меня нет формального опыта в обработке естественного языка, и мне было интересно, может ли кто-нибудь из НЛП пролить свет на это. Я играю с библиотекой NLTK , и я специально изучал функцию стоп-слов, предоставляемую этим пакетом: В [80]:...
1838 просмотров

Sql Server 2008 — удалить слово из системного стоп-листа?
Я пытаюсь удалить символ "-" из списка стоп-слов, но не могу. Я создал свой собственный стоп-лист, который наследует системный стоп-лист. Когда я пытаюсь удалить «-» из стоп-листа, сервер sql сообщает мне, что этого символа нет в стоп-листе. Это...
1861 просмотров

Преобразование нетегированных корпусов в тегированные (NLTK)
У меня есть корпус открытого текста, который я хочу пометить и сохранить, чтобы я мог использовать его в дальнейшем. Как лучше всего это сделать? Я уже сделал свой тегер, но я не могу найти способ изменить корпус, чтобы он не был беспорядочным.
646 просмотров
schedule 08.08.2022

Удалить стоп-слова в Java Требуется помощь
Я использую метод удаления стоп-слова, определенного в файле, который удалит эти слова из строки запроса, которую я передаю этому методу... Код работает нормально Теперь мне нужно сделать следующее... Если строка запроса содержит только эти...
2140 просмотров
schedule 08.06.2022

удаление стоп-слов с помощью python
Все, У меня есть некоторый текст, который мне нужно очистить, и у меня есть небольшой алгоритм, который «в основном» работает. def removeStopwords(self, data): with open(r'stopwords.txt') as stopwords: wordList = [] for i in...
1756 просмотров
schedule 01.08.2023

Solr не может найти ресурс stopwords_en.txt
Я пытаюсь настроить Solr 3.6.0 с Django-haystack Beta 2.0.0. После запуска ./manage.py build_solr_schema и перемещения schema.xml в каталог conf при посещении http://localhost:8983/solr/admin я получаю сообщение об ошибке, точно такое же, как и...
9191 просмотров
schedule 03.04.2022

Полнотекстовый поиск не работает, если стоп-слово включено, даже если список стоп-слов пуст
Я хотел бы иметь возможность искать каждое слово, поэтому я очистил список стоп-слов. Чем я перестроил index. Но, к сожалению, если я ввожу поисковое выражение со стоп-словом, оно все равно не возвращает строку. Если я пропущу только стоп-слово, я...
15891 просмотров

Полнотекстовый поиск со стоп-словами в MySQL
Я использую полнотекстовый поиск в MySQL. Но при поиске по Stopword результат пустой. То, что я хочу, это работа, подобная той, которую мы используем с LIKE. Имею в виду, что это делать со всеми словами. После того, как я использовал...
663 просмотров
schedule 30.09.2023

R tm removeWords стоп-слова не удаляет стоп-слова
Я использую пакет R tm и обнаружил, что почти ни одна из tm_map функций, удаляющих элементы текста, у меня не работает. Под «работой» я подразумеваю, например, что я запущу: d <- tm_map(d, removeWords, stopwords('english')) но потом,...
18802 просмотров
schedule 20.03.2022

Удалить стоп-слова из содержимого файла и подсчитать количество вхождений слов
Привет, ниже моя программа Java, в которой я сохранил несколько стоп-слов в массиве и сравниваю эти стоп-слова со словами в моем текстовом файле, а затем для слов, которые не являются стоп-словами, я подсчитываю частоту слов. String[] stopwords...
9687 просмотров
schedule 27.08.2022

Удаление стоп-слов из одной строки
Мой запрос: string = 'Alligator in water' , где in — стоп-слово. Как я могу удалить его, чтобы получить stop_remove = 'Alligator water' в качестве вывода. Я пробовал это с ismember , но он возвращает целочисленное значение для совпадающего...
4209 просмотров
schedule 04.07.2022

Удаление стемминга и стоп-слов в Lucene 4.7 для арабского языка
Не могли бы вы помочь мне, как я могу использовать стеммер Lucene и удаление стоп-слов для арабского языка? Кроме того, я хочу знать оба: Используйте мой собственный список стоп-слов. Используйте список Lucene. Заранее спасибо....
1500 просмотров
schedule 23.05.2022

Perl удаляет StopWords из строки
Я использую этот скрипт для удаления стоп-слов в Perl, я работаю в Windows и не смог найти совместимую версию: Lingua::EN::StopWordList Lingua::StopWords qw(getStopWords) У меня есть массив стоп-слов, но как только я использую REGEX ниже, я...
825 просмотров
schedule 16.09.2022

Запросы eDismax со стоп-словами и полями для конкретных языков
У меня есть 3 текстовых поля: content_ru content_sp content_fr Каждое из вышеперечисленных полей имеет свой набор анализаторов, токенизаторов и фильтров. У них также есть собственный набор стоп-слов. Я использую...
611 просмотров
schedule 30.04.2022

Package tm: removeWords Как избежать удаления CERTIAN (в частности, отрицаний) английских стоп-слов, если они указаны?
Я хотел бы использовать функцию removeWords ( stopwords("english") ) через: corpus <- tm_map(corpus,removeWords, stopwords("english")) , но некоторые слова, такие как «не», и другие отрицания, которые я хотел бы сохранить. Можно ли...
2923 просмотров
schedule 28.09.2022

Apache Lucene не фильтрует стоп-слова, несмотря на использование StopAnalyzer и StopFilter.
У меня есть модуль на основе Apache Lucene 5.5/6.0, который извлекает ключевые слова. Все работает нормально, кроме одного — Lucene не фильтрует стоп-слова. Я попытался включить фильтрацию стоп-слов двумя разными способами. Подход №1:...
1678 просмотров

Полнотекстовый поиск не дает правильных результатов
У нас есть полнотекстовый индекс для поля xml в нашей базе данных. Если я запускаю этот запрос: select * from UserProfile where CONTAINS(UserData,'028894507') Я получаю правильные результаты. Но если я запускаю этот запрос: select...
59 просмотров

Невозможно удалить английские стоп-слова из фрейма данных
Я пытался выполнить анализ настроений по набору данных обзоров фильмов, и я застрял в точке, где я не могу удалить английские стоп-слова из данных. Что я делаю не так? from nltk.corpus import stopwords stop = stopwords.words("English") list_ =...
1094 просмотров