Вопросы по теме 'apache-tika'

SOLR Tika: добавить текст файла в существующую запись (ExtractingRequestHandler)
Я индексирую сообщения в SOLR с полями «имя», «название» и «описание». Я хотел бы позже иметь возможность добавить файл (например, документ Word или PDF) с помощью Tika/ExtractingRequestHandler. Я знаю, что могу добавлять документы так: (или через...
1709 просмотров

Как настроить Apache Tika с apache Solr 1.4.1
Я хочу проиндексировать большое количество pdf-документов. Я нашел ссылку, показывающую, что это можно сделать с помощью Apache Tika, но, к сожалению, я не могу найти ссылку, в которой описывается, что я могу настроить Apache Tika в Solr 1.4.1....
2569 просмотров
schedule 08.04.2022

Как повысить уровень документа SOLR при индексировании с помощью / solr / update
Для индексации моего веб-сайта у меня есть сценарий Ruby, который, в свою очередь, генерирует сценарий оболочки, который загружает каждый файл в корень моего документа в Solr. В сценарии оболочки есть много строк, которые выглядят так: curl -s...
4182 просмотров
schedule 16.10.2022

Тика. Можно ли получить атрибут id тега div?
Можно ли фильтровать то, что анализирует tika по атрибуту id тегов div в html? Я пытаюсь отфильтровать div с идентификатором «заголовок», потому что все страницы, которые я анализирую, имеют один и тот же заголовок, и мне нужны только уникальные...
1580 просмотров
schedule 20.10.2022

Альтернативы Apache Tika для ios
Я знаю, что Apache Tika - это программа для извлечения текста. Он может извлекать текст из файлов doc, pdf, ppt и многих других форматов файлов. Теперь мне нужна эта функция в ios, поэтому я хочу знать, есть ли альтернатива Apache Tika для ios?...
977 просмотров
schedule 16.03.2023

Извлеките только имена файлов из архива с помощью Apache Tika
Я хочу, чтобы Tika выводила только имена файлов в архиве (если входной файл является архивом) и содержимое файла, как обычно, если входной файл не является архивом. Как я могу это сделать?
942 просмотров
schedule 11.03.2024

Парсинг Outlook pst с помощью tika
Я новичок в Тике и работаю над синтаксическим анализом файлов Outlook. Используя Outlook Extractor, я могу анализировать файл * .msg, но не * .pst. Можно ли с помощью тики разобрать pst файл? Если да, то как? Спасибо
2879 просмотров
schedule 22.08.2023

Apache Tika прекращает ведение журнала
У меня есть приложение Java, которое использует библиотеку журналов Apache Commons для регистрации различных отладочных сообщений, ошибок и т. д. В настоящее время оно настроено для входа в консоль. Все это работает нормально, но когда я включаю...
1209 просмотров

Как извлечь текст файла .ppt с помощью tika?
Я извлек текст файла .pdf с помощью tika, используя класс AutoDetectParser . но когда я использую тот же код для извлечения текста файла .ppt, он выдает исключение. Как это сделать? Спасибо РЕДАКТИРОВАТЬ: Код, который я использовал: File...
2500 просмотров
schedule 03.11.2022

Переход с Play 2.0.4 на 2.1: Тика больше не находит мой класс
Я перенес веб-приложение с Play Framework 2.0.4 на 2.1. Приложение использует Apache Tika (версия 1.3) с пользовательским синтаксическим анализатором, как описано здесь на домашней странице Tika. Файл...
229 просмотров

Как извлечь метатеги из файлов HTML и проиндексировать их в SOLR и TIKA
Я пытаюсь извлечь метатеги файлов HTML и индексировать их в solr с интеграцией tika. Я не могу извлечь эти метатеги с помощью Tika и не могу отобразить их в solr. Мой HTML-файл выглядит так. <meta http-equiv="Content-Type"...
2649 просмотров
schedule 25.08.2022

как получить определенные теги метаданных из файлов с помощью apache tika
У меня есть несколько файлов в папке (sample.pdf, sample.html и т. д.), и я использую следующую команду Apache tika для извлечения метаданных. java -jar tika-app.jar -m -j /sample/sample.pdf > test.txt после выполнения этой команды я могу...
929 просмотров
schedule 22.05.2023

Содержимое zip-файлов не индексируется с помощью ExtractRequestHandler
Я индексирую zip-файлы с помощью ExtractRequestHandler. при индексировании zip-файлов. он показывает только имена файлов с zip-архивами. Пробовал с Solr 4.2, 4.3, 3.6.2. но, похоже, это не работает. Я хочу индексировать содержимое вместе с...
1009 просмотров
schedule 20.08.2022

Апач Тика и Json
Когда я использую Apache Tika для определения типа файла по содержимому. XML-файл в порядке, но не json. Если тип содержимого - json, он вернет «text / plain» вместо «application / json». Любая помощь? public static String...
3387 просмотров
schedule 12.07.2022

MimeType через Java Apache tika
У меня проблема с определением файла. На сервере разработчика и на рабочих серверах Apache tika определяют все типы файлов. Но на тестовом сервере чаще всего я получал: 'приложение/октет-поток' public static String...
187 просмотров
schedule 23.07.2022

Индексируйте содержимое PDF-файлов с помощью Solr и Tika
Кратко о проблеме : я хотел бы, чтобы Sitecore индексировал содержимое PDF-файлов, используя встроенные функции Solr (предоставляемые Tika). Я не знаю, как настроить индексирование Sitecore для использования этой функции в Solr (Tika). (Я думаю,...
2181 просмотров

Как я могу получить Pst Attchment из файла pst
Я использую java libpst и tika для извлечения метаданных из файла pst, я использовал этот код: int numberOfAttachments = email.getNumberOfAttachments(); for (int x = 0; x < numberOfAttachments; x++) { PSTAttachment attach =...
255 просмотров
schedule 08.06.2023

Извлечение текста из нескольких файлов с помощью tika и dataimporthandler
Я использую dataimporthandler для импорта данных из SqlServer и tika для извлечения текста из файла. Я понял, как извлечь текст из файла и поместить его в поле, когда есть один файл. Но я сталкиваюсь с проблемой, когда нужно извлечь текст из...
717 просмотров
schedule 31.08.2022

Lucene 4 - Как отказаться от числовых терминов в индексе?
Я использую Apache Tika для анализа XML-документа перед индексированием с помощью Apache Lucene . Это часть Тики: BodyContentHandler handler = new BodyContentHandler(10*1024*1024); Metadata metadata = new Metadata(); FileInputStream...
78 просмотров
schedule 20.07.2023

Невозможно преобразовать зашифрованные данные ответа в дереве результатов просмотра в Jmeter
Я запускаю сценарий, в котором данные ответа закодированы. Преобразовать в HTML/Обычный текст. Я импортировал файл tika-app-1.7.jar в <jmeter>/lib Перезапустил Jmeter. (2.13), но все еще не смог преобразовать текст. Может ли кто-нибудь...
520 просмотров