В метаданных Tika из электронной почты отсутствует дата

У меня есть два тестовых файла электронной почты:

  1. Файл, созданный с помощью функции «Сохранить как» в Mac Mail (при этом создается файл .txt).
  2. Файл, созданный путем перетаскивания электронного письма из Mac Mail на рабочий стол (при этом создается файл .eml).

Если я загружаю файлы с помощью

curl -T filename http://localhost:9998/detect/stream

Я получаю ответ «message/rfc822» для обоих файлов.

Если я побегу

curl -T filename http://localhost:9998/meta

Я получаю метаданные, но в случае (1) я не извлекаю дату, а в случае (2) да.

Я, конечно, понимаю, что файл .eml включает в себя полный необработанный заголовок, а файл .txt включает только очень сокращенный заголовок. Однако даже сокращенный заголовок включает поле «Дата», поэтому я думаю, что Tika должна его извлечь. Это ошибка или намеренно? В последнем случае, могу ли я что-нибудь сделать, чтобы Тика извлекла дату в случае (1)?

Я использую Тика-сервер 1.14.


person Philipp    schedule 14.05.2016    source источник


Ответы (1)


Спасибо, что открыли TIKA-1970; базовая библиотека Джеймса mime4j не может анализировать дату в формате «16 мая 2016 г., 09:30:32 по Гринвичу + 1». Мы добавим дополнительный код синтаксического анализа даты, чтобы поймать те форматы даты, которые mime4j не распознает на уровне Tika.

Еще раз спасибо, что заметили и открыли вопрос в нашей JIRA.

person Tim Allison    schedule 17.05.2016