Пользователи, привет!
Я установил Flume на свой cloudera 4.6 и пытаюсь получать твиты из твиттера.
Итак, я создал приемник HDFS и приемник HBase, и они собирают твиты... Но данные в HBase плохо структурированы.
Поскольку данные не структурированы, я не могу делать запросы к ним с помощью impala.
Я создал таблицу твитов {NAME => 'tweet'}, {NAME => 'retweet'}, {NAME => 'entities'}, {NAME => 'user'}
и моя конфигурация канала: http://pastebin.com/4b5d3R8Q
Я следую этому руководству, но не знаю, что делать с его сериализатором.
https://github.com/AronMacDonald/Twitter_Hbase_Impala Я должен превратить это в банку?
В настоящее время у меня есть это в Hbase: http://pastebin.com/aNGBsvB7 Все находится в колонке твитов...