Публикации по теме 'information-retrieval'


Рекомендация по шуткам с использованием совместной фильтрации по элементам
Введение Системы рекомендаций — большая часть современного мира. Клиенты могут видеть множество доступных вариантов и не знать, что купить. Они могут не знать о продукте, который полностью служит их цели, или, может быть, о фильме, песне или шутке, которые им в конечном итоге понравятся, но они еще не слышали об этом. Для этого используются рекомендательные системы. Они дают конкретные рекомендации клиентам по преодолению вышеупомянутых проблем. Они могут рекомендовать элементы на..

Как узнать разницу между Precision и Recall?
Я действительно не торопился, чтобы понять, как запомнить разницу между Precision и Recall. Эта статья направлена ​​на построение концепции, которая помогает четко различать их. Точность определяется как доля истинно положительных результатов (TP) в сумме истинно положительных и ложноположительных результатов (FP). Другими словами, «доля положительных идентификаций была действительно правильной». Знаменатель точности: TP + FP = Всего прогнозируемых положительных результатов..

Вопросы по теме 'information-retrieval'

Какую поисковую систему с открытым исходным кодом следует использовать?
Моя цель — создать агрегатор лент новостей и лент блогов, чтобы упростить поиск/отслеживание объектов в нем. Я искал множество решений, таких как Terrier, Lucene, SWISH-E и т. д. По сути, я смог найти только 2 источника сравнительных исследований...
275 просмотров

Косинусное сходство векторов со сложностью ‹ O(n^2)
Просмотрев этот сайт в поисках похожих проблем, я нашел это: http://math.nist.gov/javanumerics/jama/ и это: http://sujitpal.blogspot.com/2008/09/ir-math-with-java-similarity-measures.html Однако кажется, что они работают в O (n ^ 2). Я...
4470 просмотров
schedule 27.12.2022

Алгоритм кластеризации данных
Какой самый популярный алгоритм кластеризации текста, который работает с большими размерами и огромным набором данных и является быстрым? Я запутался, прочитав так много статей и так много подходов. Теперь просто хочу знать, какой из них используется...
626 просмотров

Парсинг-извлечение данных с помощью php
Допустим, у нас есть следующая структура на веб-странице. Как я могу получить следующую информацию с помощью php? что-то XAXAXA-SASASASA 2-1 ZAZAZAZA-CACACACA 2-2 <th class='black' colspan='6'>something</th> <tr class=''>...
210 просмотров

Как я могу выбрать элементы div, внутри которых нет других div?
Я использую Java и Jsoup для анализа HTML-страниц, и я хочу получить все элементы div, которые не содержат внутри себя других элементов div, для печати содержащегося в них текста. Но, например, если div содержит таблицу, а таблица содержит div, мне...
99 просмотров
schedule 05.06.2023

Ранжирование поисковых ключевых слов
Вопрос: как ранжировать ключевые слова, которые использовались в поисковых запросах в моем веб-приложении, на основе времени и количества поисков? Пользователь вводит свой поисковый запрос в текстовое поле. Через AJAX мне нужно вернуть...
323 просмотров

Время индексации Solr
Solr 1.4 отлично справляется с индексированием на выделенном физическом сервере (Windows Server 2008). Для индексирования около 1 миллиона полнотекстовых документов (размером около 4 ГБ) требуется около 20 минут с размером кучи = 512 МБ - 1 ГБ и 4 ГБ...
589 просмотров

Библиотека индексации текста в C/C++
Я разрабатываю настольный продукт Windows, для которого требуется библиотека индексации текста на C/C++. Я хотел бы дать ему ряд слов и запись, которую нужно хранить против этих слов. Поиск по этим словам должен быстро вернуть одну или несколько...
1371 просмотров
schedule 14.05.2023

составление таблицы подобия
Я не могу придумать лучшего способа решить следующую проблему...? Представьте, что у меня есть большая таблица, в которой строки и столбцы являются своего рода идентификаторами. Скажем, идентификатором книги. book_id-->1 2 3 ........
348 просмотров

Как хранить векторы документов в базе данных для поисковой системы?
Я реализовал поисковую систему на Java. Он имеет базу данных, в которой хранится инвертированный индекс, т. е. сопоставление терминов со списком документов, в которых термин появляется. Существует функция, которая позволяет пользователю загружать...
1345 просмотров

Как извлечь значимые ключевые слова из запроса?
Я работаю над проектом веб-аналитики, в котором мне нужно создать систему, которая принимает пользовательские запросы и извлекает значимые ключевые слова. Скажем, например, пользователь вводит запрос « How to do socket programming in Java », тогда я...
1443 просмотров
schedule 06.12.2022

Сохранение информации во время платежа PayPal для ее последующей обработки
Прежде чем создавать запись в базе данных после того, как пользователь отправил свою регистрацию, я хочу, чтобы он прошел процесс оплаты PayPal. Только когда он вернется на мой (WordPress) веб-сайт со страницы оплаты PayPal, будет создана запись в...
311 просмотров
schedule 08.12.2022

Lucene — получение частоты документов — termsEnum.docFreq() всегда возвращает 1
В настоящее время я пытаюсь рассчитать матрицу tf-idf для терминов в индексе lucene. Я пытаюсь сделать это с помощью следующей функции: public Table<Integer, BytesRef, Double> tfidf(String field) throws IOException, ParseException{...
2731 просмотров
schedule 22.03.2022

Список стоп-слов для НЛП
Есть ли список стоп-слов, которые люди обычно используют для удаления знаков препинания и закрывающих классных слов (например, he, she, it ) при выполнении задач, связанных с НЛП или IR / IE? Я пробовал моделировать темы с использованием выборки...
4342 просмотров

Путаница при расчете TFIDF
Я нашел в Интернете следующий код для расчета TFIDF: https://github.com/timtrueman/tf-idf/blob/master/tf-idf.py Я добавил «1+» в функцию def idf (word, documentList), поэтому я не буду разделен на 0 ошибку: return...
8290 просмотров

Извлечение информации - деловые документы
в настоящее время я пытаюсь извлечь информацию, например. отправителя или получателя из деловых документов, таких как счета. Документы были обработаны с помощью программного обеспечения для распознавания текста в XML-файлы, поэтому они снабжены...
201 просмотров

Найти аналогичные результаты с индексом Lucene/SOLR
У нас есть приложение для пометки пользовательского выбора в большом корпусе документов MS Word. Мы помечаем эти варианты одним или несколькими тегами ключевых слов и обычно тегом заголовка. Мы хотим добавить функцию, при которой выделенный текст...
142 просмотров

Алгоритм поиска по инвертированному индексу
Учтите, что есть 10 миллиардов слов, которые люди искали в Google. Каждому слову соответствует отсортированный список всех идентификаторов документов. Список выглядит так: [Word 1]->[doc_i1,doc_j1,.....] [Word 2]->[doc_i2,doc_j2,.....]...
2541 просмотров

Внедрение взаимной информации
У меня есть коллекция текстовых документов в индексе Lucene. В индексе чуть более 4 000 000 документов. Программа выполняет поиск на основе пользовательского запроса и возвращает N документов, соответствующих запросу. Затем идея состоит в том,...
719 просмотров
schedule 18.06.2023

Activerecord, как получить все уникальные атрибуты принадлежности_то в наборе?
У меня есть приложение rails с моделью сообщений и моделью категорий. Категория принадлежит сообщению Я использую разбиение на страницы для отображения 20 сообщений на странице, и на каждой странице у меня есть фильтр для фильтрации по...
61 просмотров