Как развернуть автономное приложение с помощью Spring DataFlow?

Мое приложение настроено на чтение темы из настроенной Kafka, а затем запись преобразованного результата в Hadoop HDFS. Для этого его необходимо запустить на узле кластера Yarn.

Для этого мы хотели бы использовать Spring DataFlow. Но поскольку этому приложению не нужны какие-либо входные данные из другого потока (оно уже знает, откуда взять свой источник) и ничего не выводится, как я могу создать из него действительный поток DataFlow? Другими словами, это будет поток, состоящий только из одного приложения, которое должно бесконечно работать на узле Yarn.


person Alexandre FILLATRE    schedule 01.12.2016    source источник


Ответы (1)


В этом случае вам нужно определение потока, которое подключается к именованному месту назначения в Kafka и записывает в HDFS.

Например, поток будет выглядеть так:

stream create a1 --definition ":myKafkaTopic > hdfs"

Вы можете прочитать здесь для получения дополнительной информации об этом.

person Ilayaperumal Gopinathan    schedule 02.12.2016
comment
Спасибо, это то, что я сделал, чтобы заставить его работать, так как у меня все равно не было другого выбора. Имеет ли здесь значение название темы, поскольку все уже настроено в самом приложении? Должен ли я изменить поведение приложения, чтобы использовать Sink в качестве входных данных, а не настраивать опрос Kafka непосредственно в нем? - person Alexandre FILLATRE; 02.12.2016
comment
Пока приложение приемника HDFS использует kafka привязку потока, вам не нужно вносить никаких изменений. Имя темы действительно имеет значение, и вам не нужно ничего настраивать в приложении-приемнике, если вы используете поток данных. - person Ilayaperumal Gopinathan; 02.12.2016