Я провожу тестирование с Apache Spark для своего последнего проекта в колледже. У меня есть набор данных, который я использую для создания дерева решений и делаю некоторые прогнозы на основе новых данных.
В дальнейшем думаю использовать этот проект в продакшн, где бы генерировал дерево решений (пакетная обработка), а через веб-интерфейс или мобильное приложение получал новые данные, делая прогноз класса той записи, и сообщал результат мгновенно пользователю. А также сохраните эти новые записи, чтобы через некоторое время создать новое дерево решений (пакетная обработка) и постоянно повторять этот процесс.
Несмотря на то, что Apache Spark предназначен для выполнения пакетной обработки, существует потоковый API, который позволяет получать данные в реальном времени, и в моем приложении эти данные будут использоваться только моделью, построенной в пакетном процессе с деревом решений, и поскольку прогноз довольно быстрый, он позволяет пользователю быстро получить ответ.
Мой вопрос: каковы наилучшие способы интеграции Apache Spark с веб-приложением (планируете использовать версию Play Framework scala)?