Статьи по тематике information-retrieval

Публикации по теме 'information-retrieval'

Как узнать разницу между Precision и Recall?

Я действительно не торопился, чтобы понять, как запомнить разницу между Precision и Recall. Эта статья направлена на построение концепции, которая помогает четко различать их. Точность определяется как доля истинно положительных результатов (TP) в сумме истинно положительных и ложноположительных результатов (FP). Другими словами, «доля положительных идентификаций была действительно правильной». Знаменатель точности: TP + FP = Всего прогнозируемых положительных результатов..

Вопросы по теме 'information-retrieval'

Какую поисковую систему с открытым исходным кодом следует использовать?

Моя цель — создать агрегатор лент новостей и лент блогов, чтобы упростить поиск/отслеживание объектов в нем. Я искал множество решений, таких как Terrier, Lucene, SWISH-E и т. д. По сути, я смог найти только 2 источника сравнительных исследований...

275 просмотров

search open-source information-retrieval

20.04.2023

Косинусное сходство векторов со сложностью ‹ O(n^2)

Просмотрев этот сайт в поисках похожих проблем, я нашел это: http://math.nist.gov/javanumerics/jama/ и это: http://sujitpal.blogspot.com/2008/09/ir-math-with-java-similarity-measures.html Однако кажется, что они работают в O (n ^ 2). Я...

4470 просмотров

java algorithm information-retrieval

27.12.2022

Алгоритм кластеризации данных

Какой самый популярный алгоритм кластеризации текста, который работает с большими размерами и огромным набором данных и является быстрым? Я запутался, прочитав так много статей и так много подходов. Теперь просто хочу знать, какой из них используется...

626 просмотров

cluster-analysis data-mining information-retrieval

15.06.2022

Парсинг-извлечение данных с помощью php

Допустим, у нас есть следующая структура на веб-странице. Как я могу получить следующую информацию с помощью php? что-то XAXAXA-SASASASA 2-1 ZAZAZAZA-CACACACA 2-2 <th class='black' colspan='6'>something</th> <tr class=''>...

210 просмотров

php data-retrieval information-retrieval

29.06.2023

Как я могу выбрать элементы div, внутри которых нет других div?

Я использую Java и Jsoup для анализа HTML-страниц, и я хочу получить все элементы div, которые не содержат внутри себя других элементов div, для печати содержащегося в них текста. Но, например, если div содержит таблицу, а таблица содержит div, мне...

99 просмотров

java html information-retrieval jsoup

05.06.2023

Ранжирование поисковых ключевых слов

Вопрос: как ранжировать ключевые слова, которые использовались в поисковых запросах в моем веб-приложении, на основе времени и количества поисков? Пользователь вводит свой поисковый запрос в текстовое поле. Через AJAX мне нужно вернуть...

323 просмотров

mysql search database-design information-retrieval

05.10.2022

Время индексации Solr

Solr 1.4 отлично справляется с индексированием на выделенном физическом сервере (Windows Server 2008). Для индексирования около 1 миллиона полнотекстовых документов (размером около 4 ГБ) требуется около 20 минут с размером кучи = 512 МБ - 1 ГБ и 4 ГБ...

589 просмотров

search indexing solr lucene information-retrieval

05.05.2022

Библиотека индексации текста в C/C++

Я разрабатываю настольный продукт Windows, для которого требуется библиотека индексации текста на C/C++. Я хотел бы дать ему ряд слов и запись, которую нужно хранить против этих слов. Поиск по этим словам должен быстро вернуть одну или несколько...

1371 просмотров

c++ indexing information-retrieval

14.05.2023

составление таблицы подобия

Я не могу придумать лучшего способа решить следующую проблему...? Представьте, что у меня есть большая таблица, в которой строки и столбцы являются своего рода идентификаторами. Скажем, идентификатором книги. book_id-->1 2 3 ........

348 просмотров

machine-learning algorithm data-structures information-retrieval

18.03.2023

Как хранить векторы документов в базе данных для поисковой системы?

Я реализовал поисковую систему на Java. Он имеет базу данных, в которой хранится инвертированный индекс, т. е. сопоставление терминов со списком документов, в которых термин появляется. Существует функция, которая позволяет пользователю загружать...

1345 просмотров

database information-retrieval search-engine

14.06.2022

Как извлечь значимые ключевые слова из запроса?

Я работаю над проектом веб-аналитики, в котором мне нужно создать систему, которая принимает пользовательские запросы и извлекает значимые ключевые слова. Скажем, например, пользователь вводит запрос « How to do socket programming in Java », тогда я...

1443 просмотров

nlp information-retrieval

06.12.2022

Сохранение информации во время платежа PayPal для ее последующей обработки

Прежде чем создавать запись в базе данных после того, как пользователь отправил свою регистрацию, я хочу, чтобы он прошел процесс оплаты PayPal. Только когда он вернется на мой (WordPress) веб-сайт со страницы оплаты PayPal, будет создана запись в...

311 просмотров

wordpress paypal information-retrieval

08.12.2022

Lucene — получение частоты документов — termsEnum.docFreq() всегда возвращает 1

В настоящее время я пытаюсь рассчитать матрицу tf-idf для терминов в индексе lucene. Я пытаюсь сделать это с помощью следующей функции: public Table<Integer, BytesRef, Double> tfidf(String field) throws IOException, ParseException{...

2731 просмотров

lucene tf-idf information-retrieval

22.03.2022

Список стоп-слов для НЛП

Есть ли список стоп-слов, которые люди обычно используют для удаления знаков препинания и закрывающих классных слов (например, he, she, it ) при выполнении задач, связанных с НЛП или IR / IE? Я пробовал моделировать темы с использованием выборки...

4342 просмотров

nlp topic-modeling lda information-retrieval wsd

22.08.2022

Путаница при расчете TFIDF

Я нашел в Интернете следующий код для расчета TFIDF: https://github.com/timtrueman/tf-idf/blob/master/tf-idf.py Я добавил «1+» в функцию def idf (word, documentList), поэтому я не буду разделен на 0 ошибку: return...

8290 просмотров

python tf-idf data-mining text-processing information-retrieval

09.03.2023

Извлечение информации - деловые документы

в настоящее время я пытаюсь извлечь информацию, например. отправителя или получателя из деловых документов, таких как счета. Документы были обработаны с помощью программного обеспечения для распознавания текста в XML-файлы, поэтому они снабжены...

201 просмотров

machine-learning xml-parsing wrapper information-extraction information-retrieval

19.03.2023

Найти аналогичные результаты с индексом Lucene/SOLR

У нас есть приложение для пометки пользовательского выбора в большом корпусе документов MS Word. Мы помечаем эти варианты одним или несколькими тегами ключевых слов и обычно тегом заголовка. Мы хотим добавить функцию, при которой выделенный текст...

142 просмотров

tags solr lucene information-retrieval edismax

21.04.2022

Алгоритм поиска по инвертированному индексу

Учтите, что есть 10 миллиардов слов, которые люди искали в Google. Каждому слову соответствует отсортированный список всех идентификаторов документов. Список выглядит так: [Word 1]->[doc_i1,doc_j1,.....] [Word 2]->[doc_i2,doc_j2,.....]...

2541 просмотров

set sorting algorithm information-retrieval inverted-index

31.10.2022

Внедрение взаимной информации

У меня есть коллекция текстовых документов в индексе Lucene. В индексе чуть более 4 000 000 документов. Программа выполняет поиск на основе пользовательского запроса и возвращает N документов, соответствующих запросу. Затем идея состоит в том,...

719 просмотров

java information-retrieval

18.06.2023

Activerecord, как получить все уникальные атрибуты принадлежности_то в наборе?

У меня есть приложение rails с моделью сообщений и моделью категорий. Категория принадлежит сообщению Я использую разбиение на страницы для отображения 20 сообщений на странице, и на каждой странице у меня есть фильтр для фильтрации по...

61 просмотров

ruby ruby-on-rails sql information-retrieval activerecord

07.02.2023

Публикации по теме 'information-retrieval'

Рекомендация по шуткам с использованием совместной фильтрации по элементам

Как узнать разницу между Precision и Recall?

Вопросы по теме 'information-retrieval'

Похожие вопросы