Я новичок в Тике и работаю над синтаксическим анализом файлов Outlook. Используя Outlook Extractor, я могу анализировать файл * .msg, но не * .pst. Можно ли с помощью тики разобрать pst файл? Если да, то как?
Спасибо
Я новичок в Тике и работаю над синтаксическим анализом файлов Outlook. Используя Outlook Extractor, я могу анализировать файл * .msg, но не * .pst. Можно ли с помощью тики разобрать pst файл? Если да, то как?
Спасибо
В то время, когда вы задали вопрос, это было невозможно. Запрос Tika Enhancement - TIKA-623 для добавления поддержки PST был решен только в Tika 1.6. Для более старых версий Tika патч придется брать оттуда. (Все зависимости теперь находятся в Maven Central - долгое время это был ключевой блокировщик)
Для пользователей Apache Tika 1.6 или более поздних версий хорошей новостью является то, что поддержка PST встроена и PST теперь является одним из поддерживаемых форматов почты в Tika!
Парсер файлов pst доступен с Tika 1.6
https://tika.apache.org/1.6/api/org/apache/tika/parser/mbox/OutlookPSTParser.html
Загрузите последнюю версию jar-файла со страницы http://grepcode.com/project/repo1.maven.org/maven2/org.apache.tika/tika-app/