Поддержка Cloud Bigtable в качестве приемника в облачном потоке данных

Планируется ли включить Cloud Dataflow для записи данных в Cloud Bigtable? Это вообще возможно?

Добавление пользовательского Sink для обработки ввода-вывода, вероятно, было бы правильным выбором.

В качестве обходного пути я попытался подключиться к Bigtable (тот же проект) в простом файле DoFn. Открытие соединения и таблицы на шаге startBundle и закрытие их на шаге finishBundle.

Кроме того, я добавил bigtable-hbase jar (0.1.5) в путь к классам и модифицированную версию hbase-site.xml в папку ресурсов, которая будет выбрана.

При работе в облаке я получаю исключение NPN/ALPN extensions not installed.

При локальном запуске я получаю исключение, в котором говорится, что ComputeEngineCredentials cannot find the metadata server. несмотря на то, что я установил GOOGLE_APPLICATION_CREDENTIALS в сгенерированный файл ключа json.

Любая помощь будет принята с благодарностью.


person codemoped    schedule 09.06.2015    source источник
comment
Я получаю эту ошибку NPN/ALPN extension not installed. Посмотрим, что нужно сделать, чтобы исправить это..   -  person The Coder    schedule 09.06.2015
comment
В настоящее время мы работаем над обеспечением поддержки Cloud Bigtable как источника, так и приемника в Cloud Dataflow, но у меня пока нет конкретных сроков, которыми я мог бы поделиться с вами.   -  person jkff    schedule 09.06.2015
comment
На следующей неделе мы опубликуем пример ParDo() с открытым исходным кодом.   -  person Les Vogel - Google DevRel    schedule 09.06.2015
comment
@jkff Это здорово! Можете ли вы дать приблизительную оценку? Мы говорим о днях, неделях, месяцах?   -  person codemoped    schedule 10.06.2015
comment
Я должен быть очень расплывчатым, потому что готовый коннектор bigtable зависит от решения нескольких проблем на пересечении разных команд, что трудно предсказать (вы столкнулись с одной из этих проблем), и от расстановки приоритетов других задач. Это определенно не дни, но, надеюсь, и не месяцы. Извините, я не мог быть более полезным об этом.   -  person jkff    schedule 10.06.2015


Ответы (2)


Для Cloud BigTable требуется сетевой JAR-файл NPN/ALPN. В настоящее время он не установлен на рабочих потоках данных. Таким образом, доступ к Cloud BigTable напрямую из ParDo не сработает.

Одним из возможных обходных путей является использование HBase REST API для настройки сервера REST для доступа к Cloud Bigtable на виртуальной машине вне потока данных. Эти инструкции могут помочь.

Затем вы можете отправлять запросы REST на этот сервер REST. Это может быть несколько сложно, если вы отправляете много запросов (т. е. обрабатываете большие объемы данных и вам необходимо настроить несколько экземпляров вашего REST-сервера и распределить нагрузку между ними).

person Jeremy Lewi    schedule 09.06.2015
comment
Спасибо за ваше разъяснение. Я так и подозревал. Знаете ли вы обходной путь для этой проблемы? Или мне просто подождать, пока команда разработчиков Google окажет поддержку Cloud Bigtable? - person codemoped; 10.06.2015

Теперь у нас есть коннектор Cloud Bigtable/Dataflow. Дополнительную информацию можно найти по адресу: https://cloud.google.com/bigtable/docs/dataflow-hbase

person Solomon Duskis    schedule 31.08.2015