Загрузите данные Google Cloud Storage в bigtable

Есть ли простой способ или пример для загрузки данных Google Cloud Storage в bigtable?

У меня много json файлов, созданных pyspark, и я хочу загрузить данные в bigtable.

Но я не могу найти простого способа сделать это!

Я пробовал python код из google-cloud-python, и он работа была оштрафована, но она просто считывала данные построчно в bigtable, что было для меня странно.

Любая помощь будет принята с благодарностью.


person chilun    schedule 17.11.2017    source источник
comment
Не могли бы вы прислать мне этот измененный код Python, у меня такое же требование   -  person Indrajeet Patil    schedule 21.05.2021


Ответы (1)


В Cloud Bigtable нет простого инструмента для чтения данных. Вот несколько вариантов:

  1. Импортируйте файлы с помощью Dataflow. Для этого требуется разработка java и изучение модели программирования Dataflow.
  2. Используйте Python (возможно, с Pyspark) для чтения этих файлов json и напишите в Cloud Bigtable с помощью метода под названием mutate_rows, которые массово записывают в Bigtable.

К вашему сведению, я работаю в команде Cloud Bigtable. Я разработчик Java, поэтому выбираю №1. Наша команда работает над улучшением нашего опыта работы с Python. Расширенная группа недавно добавила несколько улучшений надежности, чтобы убедиться, что mutate_rows устойчиво к большим задачам. У нас пока нет хороших примеров интеграции с PySpark или Apache Beam's python SDK. , но они на нашем радаре.

person Solomon Duskis    schedule 17.11.2017
comment
Привет, @Solomon, спасибо, что поделились опытом своей команды. Я пробовал использовать для этого Dataflow. Думаю, я действительно не знаю, как использовать Dataflow на gcp. Кстати, документы gcp меня всегда смущают !! ха..га .. - person chilun; 19.11.2017
comment
Вот несколько примеров использования Dataflow с Cloud Bigtable: github.com/GoogleCloudPlatform/cloud-bigtable-examples/tree/ - person Solomon Duskis; 19.11.2017
comment
Попробую позже. Спасибо, что поделился. - person chilun; 20.11.2017
comment
Есть ли сейчас поддержка Python? - person Priya Agarwal; 22.07.2020
comment
Я считаю, что написание работает: github.com/apache/beam/blob/master/sdks/python/apache_beam/io/. Идет чтение: github.com/apache/beam/pull/11295 - person Solomon Duskis; 23.07.2020