У меня есть два тестовых файла электронной почты:
- Файл, созданный с помощью функции «Сохранить как» в Mac Mail (при этом создается файл .txt).
- Файл, созданный путем перетаскивания электронного письма из Mac Mail на рабочий стол (при этом создается файл .eml).
Если я загружаю файлы с помощью
curl -T filename http://localhost:9998/detect/stream
Я получаю ответ «message/rfc822» для обоих файлов.
Если я побегу
curl -T filename http://localhost:9998/meta
Я получаю метаданные, но в случае (1) я не извлекаю дату, а в случае (2) да.
Я, конечно, понимаю, что файл .eml включает в себя полный необработанный заголовок, а файл .txt включает только очень сокращенный заголовок. Однако даже сокращенный заголовок включает поле «Дата», поэтому я думаю, что Tika должна его извлечь. Это ошибка или намеренно? В последнем случае, могу ли я что-нибудь сделать, чтобы Тика извлекла дату в случае (1)?
Я использую Тика-сервер 1.14.