Вопросы по теме 'inverted-index'

Количество обращений к инвертированному индексу Lucene
В Lucene я хочу знать о количестве доступов в инвертированном индексе. Может быть, у Lucene такой перевернутый индекс, кошка собака ----- ----- d01 d02 d02 d01 d03 d03 ----- ----- Если я использую запрос «кошка-собака», Lucene будет...
327 просмотров
schedule 10.04.2023

Перевернутый индекс Apache Lucene
Использует ли индекс Lucene tf-idf в качестве весов? Можно ли определить собственную статистику и вес для каждого документа и «подключить» их к Lucene?
840 просмотров
schedule 12.07.2022

В чем разница между вторичным индексом и инвертированным индексом в Cassandra?
Когда я прочитал об этих двух, я подумал, что они оба объясняют один и тот же подход, я погуглил, но ничего не нашел. Разница в реализации? Cassandra сама выполняет вторичный индекс, но инвертированный индекс должен быть реализован самостоятельно?...
3745 просмотров
schedule 07.10.2022

Алгоритм поиска по инвертированному индексу
Учтите, что есть 10 миллиардов слов, которые люди искали в Google. Каждому слову соответствует отсортированный список всех идентификаторов документов. Список выглядит так: [Word 1]->[doc_i1,doc_j1,.....] [Word 2]->[doc_i2,doc_j2,.....]...
2541 просмотров

Лучший способ хранить, загружать и использовать инвертированный индекс в C++ (~ 500 мес.)
Я разрабатываю крошечную поисковую систему, используя TF-IDF и косинусное сходство. Когда страницы добавляются, я строю инвертированный индекс, чтобы сохранить частоту слов на разных страницах. Я удаляю стоп-слова и более распространенные слова, а...
1990 просмотров

Сохранение инвертированного индекса
Я знаю, что инвертированное индексирование — хороший способ индексации слов, но что меня смущает, так это то, как поисковые системы на самом деле их сохраняют? Например, если в документе встречается слово "гугл" - 2, 4, 6, 8 с разной частотой, где их...
5076 просмотров

Как именно выглядит структура данных инвертированного индекса в SOLR
Все, простите я только начинаю учиться работать с SOLR . Мощный СЭ. И я уже знал, что Inverted Index является причиной того, что поиск в SOLR такой быстрый. Во многих читал. Как Solr in action , Apache Solr search pattern . Перевернутый...
1902 просмотров
schedule 25.06.2022

Инвертирование словаря со значениями списка
Итак, у меня есть этот индекс как dict. index = {'Testfil2.txt': ['nisse', 'hue', 'abe', 'pind'], 'Testfil1.txt': ['hue', 'abe', 'tosse', 'svend']} Мне нужно инвертировать индекс, чтобы это был словарь с дубликатами значений, объединенных в...
13062 просмотров

Построить перевернутый список предложений и их соответствующие позиции в документе
Я пытаюсь создать перевернутый список предложений и их положение в исходном документе, используя Python, и с треском провалился. Допустим, у меня есть два документа: Документ 1 I like bananas. I don't like pears. Документ 2 I...
499 просмотров
schedule 13.05.2022

Как получить список сообщений для каждого термина в lucene index
Я читаю индекс Lucene и могу извлечь термины из индекса. Я хочу получить весь список сообщений для каждого термина в lucene index. Я использую lucene 7.4.0 jar. Каждый документ в этом индексе состоит из двух полей (1) text_es или text_fr или...
646 просмотров

Как оптимально сжать инвертированные индексы для набора данных временных рядов
Я пытаюсь сжать набор данных временных рядов с коэффициентом сжатия 25%. Для меня это превратилось в месть. Данные представляют собой исторические котировки акций с 1-минутным интервалом за период в 1 месяц (см. примечания к набору данных) с 0...
41 просмотров