у меня есть файлы PST или электронной почты в hdfs. теперь я хочу выполнить анализ текста с помощью любого компонента, доступного в Hadoop, который подходит лучше всего. как мне начать с.
Должен ли я сначала извлечь фактический контент из этих файлов и сохранить его где-нибудь (например, в текстовом файле), а затем запустить анализ текстового файла?
пожалуйста, предложите мне.
p.s: я наткнулся на это, когда начал ищите в гугле. это единственный оставшийся вариант или любое другое доступное решение.