Вопросы по теме 'apache-beam-io'

JDBC Fetch из оракула с Beam
Приведенная ниже программа предназначена для подключения к Oracle 11g и извлечения записей. Как бы то ни было, это дает мне исключение NullPointerException для кодера в pipe.apply(). Я добавил ojdbc14.jar в зависимости проекта. public static...
2068 просмотров
schedule 14.07.2022

Программное создание схемы BigQuery в конвейере Beam
У меня есть коллекция однородных диктов, как мне их записать в BigQuery, не зная схемы? BigQuerySink требует, чтобы я указывал схему при ее создании. Но я не знаю схемы: она определяется ключами диктов, которые я пытаюсь написать. Есть ли...
1255 просмотров

Как читать файлы как byte[] в Apache Beam?
в настоящее время мы работаем над проверкой концепции Apache Beam Pipeline в облачном потоке данных. Мы помещаем некоторые файлы (без текста, в специальном двоичном формате) в Google Cloud Buckets и хотели бы прочитать эти файлы как byte[] и...
1520 просмотров

Apache Beam 2.1.0 с Google DatastoreIO вызывает Guava Preconditions checkArgument для несуществующей функции в GAE
При создании шаблона потока данных, который должен считываться из хранилища данных, я получаю следующую ошибку в журналах stackdriver (из Google App Engine): java.lang.NoSuchMethodError:...
282 просмотров

Использование функций DISTINCT в DataStoreIO.read с Apache Beam Java SDK
Я выполняю задание потока данных (Apache Beam SDK 2.1.0 Java, средство запуска потока данных Google), и мне нужно «отчетливо» прочитать из хранилища данных Google одно конкретное свойство. (как старое доброе ключевое слово "DISTINCT" в SQL). Вот мой...
265 просмотров

Google Dataflow (Apache Beam) Массовая вставка JdbcIO в базу данных mysql
Я использую Dataflow SDK 2.X Java API (Apache Beam SDK) для записи данных в mysql. Я создал конвейеры на основе документация Apache Beam SDK для записи данных в MySQL с использованием потока данных. Он вставляет одну строку за раз, когда мне нужно...
5304 просмотров

Scio все методы saveAs txt файла выводят текстовый файл с префиксом части
Если я хочу вывести SCollection из TableRow или String в облачное хранилище Google (GCS), я использую saveAsTableRowJsonFile или saveAsTextFile соответственно. Оба эти метода в конечном итоге используют private[scio] def pathWithShards(path:...
408 просмотров

Ввод Apache Beam из портов
[Python — Луч SDK] Я хотел бы иметь возможность тестировать проблемы синхронизации в интеграционных тестах, поэтому я хочу создать систему генератора, которая направляет сообщения в мое приложение Beam с указанными мной временными метками. Моя...
100 просмотров
schedule 26.04.2023

Avro не открывает исключение при записи общих записей с использованием Apache Beam
Я использую AvroIO.<MyCustomType>writeCustomTypeToGenericRecords() для записи общих записей в GCS внутри задания потоковой передачи данных. Первые несколько минут все работает нормально, однако примерно через 10 минут задание начинает...
291 просмотров
schedule 19.03.2023

Apache BEAM реализует UnboundedSource — как BEAM решает, сколько будет создано читателей?
Я реализую UnboundedReader, чтобы использовать пользовательский источник данных (на основе внутреннего API Java на основе подписки). Когда я запускаю конвейер, я замечаю, что создается несколько экземпляров UnboundedReader. Как BEAM решает, сколько...
182 просмотров
schedule 01.04.2023

как писать в GCS с помощью ParDo и DoFn в луче apache
Используя apache_beam.io.filesystems.FileSystems , как писать в GCS с помощью ParDo и DoFn ?? Я уже получаю вывод в формате csv от pardo, мне нужно написать другое pardo, чтобы записать его в gcs, или я могу напрямую импортировать модуль, чтобы...
1928 просмотров

Невозможно прочитать столбцы формата даты (тип int96) из схемы avro-parquet в Apache Beam
Я столкнулся со следующим исключением при чтении файла паркета, содержащего столбец date . Я использую beam-sdks-java-io* 2.11.0 и паркет*-1.10 , пожалуйста, помогите мне сделать то же самое. Заранее спасибо. Caused by:...
668 просмотров
schedule 06.12.2022

Чтение числового типа данных BigQuery из таблицы с помощью класса SchemaAndRecord
При разработке кода я использовал приведенный ниже фрагмент кода для чтения данных таблицы из BigQuery. PCollection<ReasonCode> gpseEftReasonCodes = input. apply("Reading xxyyzz", BigQueryIO.read(new...
595 просмотров

Исключение нулевого указателя в PubsubIO.readAvroGenericRecords при выполнении задания потока данных (java)
У меня есть следующий конвейер луча apache: package ch.mycompany.bb8; import ch.mycompany.bb8.transforms.LogRecords; import java.io.File; import java.io.IOException; import org.apache.avro.Schema; import org.apache.beam.sdk.Pipeline; import...
219 просмотров

Чтение файла xml в луче apache с использованием XmlIo
Постановка проблемы: я пытаюсь прочитать и распечатать содержимое файла xml в луче, используя прямой бегун, вот фрагмент кода: public class BookStore{ public static void main (string args[]){ BookOptions options =...
395 просмотров
schedule 27.11.2022

Apache Beam: обновление побочного ввода, который я читаю из MongoDB, используя MongoDbIO.read ()
Я читаю mongodata PCollection из MongoDB и использую этот PCollection в качестве sideInput для моего ParDo (DoFN) .withSideInputs (PCollection) А из Backend моя коллекция MongoDB обновляется ежедневно или ежемесячно, а может и ежегодно . И мне...
158 просмотров

Я пытаюсь писать на S3, используя acceptRole через FileIO с ParquetIO.
Шаг 1: предполагаемая роль public static AWSCredentialsProvider getCredentials() { if (roleARN.length() > 0) { STSAssumeRoleSessionCredentialsProvider credentialsProvider = new STSAssumeRoleSessionCredentialsProvider...
304 просмотров

Как выполнить контрольную точку в Apache Beam при использовании flink runner?
Я читаю из несвязанного источника (Kafka) и записываю его количество слов в другую тему Kafka. Теперь я хочу выполнить контрольную точку в балочном конвейере. Я выполнил все инструкции в документации apache beam, но каталог контрольных точек не...
448 просмотров

Поддерживает ли GCP Dataflow kafka IO в Python?
Я пытаюсь прочитать данные из темы kafka, используя метод kafka.ReadFromKafka () в коде Python. Мой код выглядит следующим образом: from apache_beam.io.external import kafka import apache_beam as beam options = PipelineOptions() with...
885 просмотров

Какие бегуны поддерживают kafkaIO в Apache Beam?
Я работаю с лучом apache. Моя задача - вытащить данные из темы kafka и обработать в потоке данных. Поддерживает ли поток данных kafkaIO? Какие бегуны поддерживаются для KafkaIO?
148 просмотров