bigdata: как анализировать данные pst/email?

у меня есть файлы PST или электронной почты в hdfs. теперь я хочу выполнить анализ текста с помощью любого компонента, доступного в Hadoop, который подходит лучше всего. как мне начать с.

Должен ли я сначала извлечь фактический контент из этих файлов и сохранить его где-нибудь (например, в текстовом файле), а затем запустить анализ текстового файла?

пожалуйста, предложите мне.

p.s: я наткнулся на это, когда начал ищите в гугле. это единственный оставшийся вариант или любое другое доступное решение.


person natarajan k    schedule 03.07.2015    source источник
comment
Что вы пробовали? Как далеко вы добрались? С какими ошибками/проблемами вы столкнулись?   -  person Gagravarr    schedule 05.07.2015
comment
Я создал образцы файлов из электронной почты Outlook, такие как (.pst), (.oft), (.msg), (.txt), (.mht), (.htm) и загрузил эти файлы как таковые в HDFS. Теперь я хочу извлечь содержимое из этих файлов и проанализировать. нужно ли нам использовать apache tika для извлечения содержимого или с помощью какого компонента мы можем напрямую извлекать и анализировать данные?   -  person natarajan k    schedule 09.07.2015
comment
Могу ли я использовать Spark mllib для извлечения содержимого, которое внутренне использует tika. это правильно?   -  person natarajan k    schedule 09.07.2015