Я настроил Amazon Elastic MapReduce для выполнения различных стандартных задач машинного обучения. В прошлом я широко использовал Python для локального машинного обучения и не знаю Java.
Насколько я могу судить, нет хорошо разработанных библиотек Python для распределенного машинного обучения. Java, с другой стороны, имеет Apache Mahout и более поздний Oryx от Cloudera.
По сути, мне кажется, что я должен выбирать между двумя вариантами. Продолжить распараллеливание моих собственных алгоритмов для использования с потоковой передачей Hadoop или одним из оболочка Python для Hadoop до приличия библиотеки существуют или переходят на Java, чтобы я мог использовать Mahout/Oryx. Существует огромная разница между написанием собственного кода подсчета слов MapReduce и написанием собственного MapReduce SVM! Даже с помощью отличных руководств, таких как этот< /а>.
Я не знаю, что является более разумным выбором, поэтому мой вопрос:
A) Есть ли какая-то библиотека Python, которую я пропустил, которая была бы полезна? Если нет, не знаете ли вы, есть ли в разработке какие-либо, которые будут полезны в ближайшем будущем?
Б) Если ответ на вышеприведенный ответ «нет», то не лучше ли мне потратить время на то, чтобы спрыгнуть с корабля на Java?