Парсинг Outlook pst с помощью tika

Я новичок в Тике и работаю над синтаксическим анализом файлов Outlook. Используя Outlook Extractor, я могу анализировать файл * .msg, но не * .pst. Можно ли с помощью тики разобрать pst файл? Если да, то как?

Спасибо


person Mani    schedule 11.10.2012    source источник


Ответы (2)


В то время, когда вы задали вопрос, это было невозможно. Запрос Tika Enhancement - TIKA-623 для добавления поддержки PST был решен только в Tika 1.6. Для более старых версий Tika патч придется брать оттуда. (Все зависимости теперь находятся в Maven Central - долгое время это был ключевой блокировщик)

Для пользователей Apache Tika 1.6 или более поздних версий хорошей новостью является то, что поддержка PST встроена и PST теперь является одним из поддерживаемых форматов почты в Tika!

person Gagravarr    schedule 11.10.2012
comment
Спасибо за информацию, посмотрю в патч и попробую разобраться с зависимостями. - person Mani; 13.10.2012

Парсер файлов pst доступен с Tika 1.6

https://tika.apache.org/1.6/api/org/apache/tika/parser/mbox/OutlookPSTParser.html

Загрузите последнюю версию jar-файла со страницы http://grepcode.com/project/repo1.maven.org/maven2/org.apache.tika/tika-app/

person sathish reddy    schedule 29.04.2015