Содержимое zip-файлов не индексируется с помощью ExtractRequestHandler

Я индексирую zip-файлы с помощью ExtractRequestHandler. при индексировании zip-файлов. он показывает только имена файлов с zip-архивами.

Пробовал с Solr 4.2, 4.3, 3.6.2. но, похоже, это не работает. Я хочу индексировать содержимое вместе с именами файлов.

любое решение?


person user2475624    schedule 28.07.2013    source источник
comment
Прикрепили ли вы рекурсивный парсер к ParseContext, который вы даете Тике? Если нет, попробуйте это, так как Tika не будет возвращаться к встроенным ресурсам (например, почтовым индексам) без предоставления одного   -  person Gagravarr    schedule 29.07.2013


Ответы (1)


В настоящее время Solr индексирует не содержимое zip-файла, а только имена файлов.
Я поднял JIRA SOLR-2416 для того же, и патч прилагается к JIRA.
Это также должно позволить вам индексировать содержимое zip-файла.
Это JIRA для Solr Cell, и есть другие один для DIH также.

person Jayendra    schedule 29.07.2013
comment
Я просмотрел ваши сообщения, проблемы и исправления. и Solr svn, с которым вы предложили работать по некоторым ссылкам. Не могли бы вы прояснить, как применить этот патч ?? - person user2475624; 29.07.2013
comment
вам нужно проверить код магистрали .. и использовать плагин svn для применения патча. После применения вам необходимо перестроить артефакты Solr и использовать их. - person Jayendra; 29.07.2013
comment
Хорошо, позвольте мне попробовать! Спасибо :) - person user2475624; 29.07.2013
comment
Какую ветку Svn я должен проверить? svn.apache.org/repos/asf/lucene/dev/‹branch< /а>› ?? - person user2475624; 29.07.2013
comment
это выглядит очень странно, потому что я уже использую последнюю версию tika 1.4 с solr 4.4. Какие файлы или jar-файлы точно нуждаются в изменениях. Пожалуйста, объясните вкратце? - person user2475624; 29.07.2013
comment
проверьте патч Solr. Если в основном файл diff. Проверьте файл Java и просто скопируйте код в проверенную ветку/ствол и снова скомпилируйте исходный код. - person Jayendra; 29.07.2013
comment
какую банку мне нужно восстановить? Я имею в виду, где на самом деле находится этот файл ExtractingDocumentLoader.java? - person user2475624; 29.07.2013
comment
solr-cell jar должен иметь файл. - person Jayendra; 29.07.2013
comment
применение патча приводит к следующей ошибке: - Hunk # 1 FAILED at 182. 1 из 1 фрагмента FAILED - сохранение отклонений в файл - person user2475624; 29.07.2013
comment
Патчу уже год, поэтому он может не применяться в текущей ветке. Вы можете напрямую изменять исходный код и пересобирать solr. это было бы быстро. - person Jayendra; 30.07.2013
comment
Я добавил строку:- context.set(Parser.class, parser); а теперь пытаетесь собрать с помощью команды ant dist? это правильный путь или любой быстрый способ построить sor? - person user2475624; 30.07.2013
comment
Ага. это правильно. построить Solr. Затем вы можете использовать банку Solr Cell, созданную сборкой. - person Jayendra; 30.07.2013
comment
Я застрял с этим. Ivy выдает ошибку. Невозможно разрешить зависимости. Ошибка разрешения! - person user2475624; 30.07.2013