Данные в Hbase не структурированы должным образом — Twitter Flume

Пользователи, привет!

Я установил Flume на свой cloudera 4.6 и пытаюсь получать твиты из твиттера.

Итак, я создал приемник HDFS и приемник HBase, и они собирают твиты... Но данные в HBase плохо структурированы.

Поскольку данные не структурированы, я не могу делать запросы к ним с помощью impala.

Я создал таблицу твитов {NAME => 'tweet'}, {NAME => 'retweet'}, {NAME => 'entities'}, {NAME => 'user'}

и моя конфигурация канала: http://pastebin.com/4b5d3R8Q

Я следую этому руководству, но не знаю, что делать с его сериализатором.

https://github.com/AronMacDonald/Twitter_Hbase_Impala Я должен превратить это в банку?

В настоящее время у меня есть это в Hbase: http://pastebin.com/aNGBsvB7 Все находится в колонке твитов...


person kulssaka    schedule 27.06.2014    source источник


Ответы (1)


Я перекомпилировал и использовал файл flume-sources-1.0-SNAPSHOT.jar из git:https://github.com/cloudera/cdh-twitter-example, поэтому при использовании «TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource» проблем не возникло.

Установите Maven, затем загрузите репозиторий cdh-twitter-example.

Разархивируйте, затем выполните внутри (как уже упоминалось):

$ cd поток-источники

$ mvn пакет

$ cd ..

Эта проблема возникла, когда версия twitter4j обновилась с 2.2.6 до 3.X, они удалили метод setIncludeEntities, а JAR не обновился.

PS: Не качайте готовую версию, она все равно старая.

person kulssaka    schedule 21.07.2014