Передача данных PubMed в Kafka

В источнике данных PubMed мне нужно поместить вывод в очередь Kafka. Каждый источник можно рассматривать как тему Kafka. (Я знаю концепции Кафки и исследовал Кафку с помощью Python)

Я могу просматривать данные PubMed через FireFTP.

Может ли кто-нибудь помочь, как двигаться дальше?


person Soundarya Thiagarajan    schedule 07.10.2015    source источник


Ответы (1)


Вы захотите использовать службу, которая загружает данные с FTP и передает их в Kafka. Apache Flume делает именно это. Это довольно легко настроить. Вы можете использовать источник клиента для FTP https://github.com/keedio/flume-ftp-source или используйте задание cron, которое загружает файлы в папку спула, а Flume забирает файлы оттуда. У Flume есть очень приличный Kafka Sink, который позволяет непрерывно писать в kafka.

person Erik Schmiegelow    schedule 08.10.2015