Вопросы по теме 'apache-beam-io'
JDBC Fetch из оракула с Beam
Приведенная ниже программа предназначена для подключения к Oracle 11g и извлечения записей. Как бы то ни было, это дает мне исключение NullPointerException для кодера в pipe.apply().
Я добавил ojdbc14.jar в зависимости проекта.
public static...
2068 просмотров
schedule
14.07.2022
Программное создание схемы BigQuery в конвейере Beam
У меня есть коллекция однородных диктов, как мне их записать в BigQuery, не зная схемы?
BigQuerySink требует, чтобы я указывал схему при ее создании. Но я не знаю схемы: она определяется ключами диктов, которые я пытаюсь написать.
Есть ли...
1255 просмотров
schedule
28.04.2023
Как читать файлы как byte[] в Apache Beam?
в настоящее время мы работаем над проверкой концепции Apache Beam Pipeline в облачном потоке данных. Мы помещаем некоторые файлы (без текста, в специальном двоичном формате) в Google Cloud Buckets и хотели бы прочитать эти файлы как byte[] и...
1520 просмотров
schedule
02.06.2022
Apache Beam 2.1.0 с Google DatastoreIO вызывает Guava Preconditions checkArgument для несуществующей функции в GAE
При создании шаблона потока данных, который должен считываться из хранилища данных, я получаю следующую ошибку в журналах stackdriver (из Google App Engine):
java.lang.NoSuchMethodError:...
282 просмотров
schedule
08.11.2023
Использование функций DISTINCT в DataStoreIO.read с Apache Beam Java SDK
Я выполняю задание потока данных (Apache Beam SDK 2.1.0 Java, средство запуска потока данных Google), и мне нужно «отчетливо» прочитать из хранилища данных Google одно конкретное свойство. (как старое доброе ключевое слово "DISTINCT" в SQL). Вот мой...
265 просмотров
schedule
02.09.2022
Google Dataflow (Apache Beam) Массовая вставка JdbcIO в базу данных mysql
Я использую Dataflow SDK 2.X Java API (Apache Beam SDK) для записи данных в mysql. Я создал конвейеры на основе документация Apache Beam SDK для записи данных в MySQL с использованием потока данных. Он вставляет одну строку за раз, когда мне нужно...
5304 просмотров
schedule
24.11.2022
Scio все методы saveAs txt файла выводят текстовый файл с префиксом части
Если я хочу вывести SCollection из TableRow или String в облачное хранилище Google (GCS), я использую saveAsTableRowJsonFile или saveAsTextFile соответственно. Оба эти метода в конечном итоге используют
private[scio] def pathWithShards(path:...
408 просмотров
schedule
08.08.2023
Ввод Apache Beam из портов
[Python — Луч SDK]
Я хотел бы иметь возможность тестировать проблемы синхронизации в интеграционных тестах, поэтому я хочу создать систему генератора, которая направляет сообщения в мое приложение Beam с указанными мной временными метками. Моя...
100 просмотров
schedule
26.04.2023
Avro не открывает исключение при записи общих записей с использованием Apache Beam
Я использую AvroIO.<MyCustomType>writeCustomTypeToGenericRecords() для записи общих записей в GCS внутри задания потоковой передачи данных. Первые несколько минут все работает нормально, однако примерно через 10 минут задание начинает...
291 просмотров
schedule
19.03.2023
Apache BEAM реализует UnboundedSource — как BEAM решает, сколько будет создано читателей?
Я реализую UnboundedReader, чтобы использовать пользовательский источник данных (на основе внутреннего API Java на основе подписки). Когда я запускаю конвейер, я замечаю, что создается несколько экземпляров UnboundedReader. Как BEAM решает, сколько...
182 просмотров
schedule
01.04.2023
как писать в GCS с помощью ParDo и DoFn в луче apache
Используя apache_beam.io.filesystems.FileSystems , как писать в GCS с помощью ParDo и DoFn ?? Я уже получаю вывод в формате csv от pardo, мне нужно написать другое pardo, чтобы записать его в gcs, или я могу напрямую импортировать модуль, чтобы...
1928 просмотров
schedule
06.08.2023
Невозможно прочитать столбцы формата даты (тип int96) из схемы avro-parquet в Apache Beam
Я столкнулся со следующим исключением при чтении файла паркета, содержащего столбец date . Я использую beam-sdks-java-io* 2.11.0 и паркет*-1.10 , пожалуйста, помогите мне сделать то же самое.
Заранее спасибо.
Caused by:...
668 просмотров
schedule
06.12.2022
Чтение числового типа данных BigQuery из таблицы с помощью класса SchemaAndRecord
При разработке кода я использовал приведенный ниже фрагмент кода для чтения данных таблицы из BigQuery.
PCollection<ReasonCode> gpseEftReasonCodes = input.
apply("Reading xxyyzz",
BigQueryIO.read(new...
595 просмотров
schedule
01.01.2023
Исключение нулевого указателя в PubsubIO.readAvroGenericRecords при выполнении задания потока данных (java)
У меня есть следующий конвейер луча apache:
package ch.mycompany.bb8;
import ch.mycompany.bb8.transforms.LogRecords;
import java.io.File;
import java.io.IOException;
import org.apache.avro.Schema;
import org.apache.beam.sdk.Pipeline;
import...
219 просмотров
schedule
20.02.2024
Чтение файла xml в луче apache с использованием XmlIo
Постановка проблемы: я пытаюсь прочитать и распечатать содержимое файла xml в луче, используя прямой бегун, вот фрагмент кода:
public class BookStore{
public static void main (string args[]){
BookOptions options =...
395 просмотров
schedule
27.11.2022
Apache Beam: обновление побочного ввода, который я читаю из MongoDB, используя MongoDbIO.read ()
Я читаю mongodata PCollection из MongoDB и использую этот PCollection в качестве sideInput для моего ParDo (DoFN) .withSideInputs (PCollection)
А из Backend моя коллекция MongoDB обновляется ежедневно или ежемесячно, а может и ежегодно . И мне...
158 просмотров
schedule
04.03.2022
Я пытаюсь писать на S3, используя acceptRole через FileIO с ParquetIO.
Шаг 1: предполагаемая роль
public static AWSCredentialsProvider getCredentials() {
if (roleARN.length() > 0) {
STSAssumeRoleSessionCredentialsProvider credentialsProvider = new STSAssumeRoleSessionCredentialsProvider...
304 просмотров
schedule
24.08.2022
Как выполнить контрольную точку в Apache Beam при использовании flink runner?
Я читаю из несвязанного источника (Kafka) и записываю его количество слов в другую тему Kafka. Теперь я хочу выполнить контрольную точку в балочном конвейере. Я выполнил все инструкции в документации apache beam, но каталог контрольных точек не...
448 просмотров
schedule
07.02.2023
Поддерживает ли GCP Dataflow kafka IO в Python?
Я пытаюсь прочитать данные из темы kafka, используя метод kafka.ReadFromKafka () в коде Python. Мой код выглядит следующим образом:
from apache_beam.io.external import kafka
import apache_beam as beam
options = PipelineOptions()
with...
885 просмотров
schedule
25.07.2023
Какие бегуны поддерживают kafkaIO в Apache Beam?
Я работаю с лучом apache. Моя задача - вытащить данные из темы kafka и обработать в потоке данных. Поддерживает ли поток данных kafkaIO? Какие бегуны поддерживаются для KafkaIO?
148 просмотров
schedule
07.08.2023