Я использую этот пример из документации Spark для расчета TF- ИДФ за кучу документов. Spark использует хэш-трюк для этих вычислений, поэтому в конце вы получаете вектор, содержащий хешированные слова и соответствующий вес, но... Как я могу вернуть слова из хэша?
Мне действительно нужно хэшировать все слова и сохранять их на карте, чтобы позже перебирать ее в поисках ключевых слов? Нет более эффективного способа встроенного Spark?
заранее спасибо