Обоснование полнотекстовых стоп-слов MySQL

В настоящее время я пытаюсь разработать базовый полнотекстовый поиск для своего веб-сайта и заметил, что некоторые слова, такие как «относительно», перечислены в качестве стоп-слов для полнотекстового поиска MySQL. Меня это не слишком беспокоит сейчас, поскольку люди, которые ищут данную новость, не обязательно будут искать, используя слово «относительно» (но я, конечно, не могу говорить за всех!). Тем не менее, я надеялся, что кто-нибудь здесь сможет просветить меня о причинах наличия списка стоп-слов. Спасибо!

Для пояснения: я использую MyIsam для своей полнотекстовой таблицы. Стоп-слова — это слова, которые MySQL не будет индексировать (для любого полнотекстового индекса). Как отмечено в комментарии к этому вопросу, есть полный список стоп-слов без каких-либо объяснений. Я просто хотел бы знать, есть ли какое-то обоснование в словах «они» выбрали.


person just_wes    schedule 23.02.2010    source источник
comment
Вы хотите использовать mySQL для поиска? Разве вы не были бы счастливее, внедрив что-то еще?   -  person Layke    schedule 23.02.2010
comment
@Laykes Я мог бы быть счастливее, используя другую структуру. Сейчас я развиваюсь очень консервативно, так как я не контролирую сервер, для которого я разрабатываю. Мне также не нужен ужасно расширенный поиск для моего сайта. В любом случае, мне все еще любопытен список стоп-слов.   -  person just_wes    schedule 23.02.2010
comment
странно, я никогда не знал о стоп-словах - вот полный список, но без объяснений: dev.mysql.com/doc/refman/5.1/en/fulltext-stopwords.html   -  person Otto Allmendinger    schedule 23.02.2010


Ответы (1)


Стоп-слова — это обычные слова английского языка. В большинстве случаев ваши результаты поиска будут более релевантными, а ваши индексы будут меньше и быстрее, если вы не индексируете эти слова.

Вы можете отредактировать список стоп-слов, используя переменную ft_stopword_file (или установить для нее значение '', чтобы индексировать все слова длиной или больше, чем ft_min_word_len), если это лучше соответствует вашим потребностям. Вы также можете изменить минимальную длину индексируемого слова, используя переменную ft_min_word_len, которая существует по той же причине.

person Ike Walker    schedule 23.02.2010