Статьи по тематике apache-beam

Публикации по теме 'apache-beam'

Введение в Apache Beam

Apache beam - это инструмент обработки данных с открытым исходным кодом, который обеспечивает унифицированную модель как для пакетных, так и для потоковых конвейеров данных. Beam полезен для задач параллельной обработки данных, в которых проблема может быть разложена на множество более мелких пакетов данных, которые можно обрабатывать независимо и параллельно. Его также можно использовать в задачах ETL. Луч Apache построен на Scala, но поддерживает SDK для Java, Python и GO. SDK для..

Вопросы по теме 'apache-beam'

Как объединить потоковые данные с большим набором исторических данных в Dataflow / Beam

Я исследую обработку журналов сеансов веб-пользователей через Google Dataflow / Apache Beam, и мне нужно объединить журналы пользователя по мере их поступления (потоковая передача) с историей сеанса пользователя за последний месяц. Я рассмотрел...

2533 просмотров

06.06.2022

Ограничение количества значений на ключ

В настоящее время у нас есть процесс потока данных, в котором у нас есть GroupByKey , но DoPar после группировки получает слишком много значений для каждого ключа, и мы хотели знать, есть ли для этого хорошее решение. Насколько я могу судить,...

433 просмотров

apache-beam google-cloud-dataflow dataflow

12.02.2023

Как CoGroupByKey работает с отбрасыванием FiredPanes?

Т.е., если у меня есть GlobalWindow с триггером, который срабатывает для каждого нового элемента в каждой коллекции, для которого установлено значение discardingFiredPanes, будет ли CoGroupByKey срабатывать с левым нулем, когда правый вызывает пожар,...

754 просмотров

apache-beam google-cloud-dataflow

30.03.2023

JDBC Fetch из оракула с Beam

Приведенная ниже программа предназначена для подключения к Oracle 11g и извлечения записей. Как бы то ни было, это дает мне исключение NullPointerException для кодера в pipe.apply(). Я добавил ojdbc14.jar в зависимости проекта. public static...

2068 просмотров

apache-beam apache-beam-io

14.07.2022

Получено сообщение больше чем max в конвейере пакетной обработки

Я получаю это сообщение в конвейере пакетной обработки, который ежедневно работает в облачной службе потока данных Google. Он начал терпеть неудачу со следующим сообщением: (88b342a0e3852af3): java.io.IOException: INVALID_ARGUMENT: Received...

386 просмотров

apache-beam google-cloud-dataflow

05.06.2022

Переопределить кодер AvroIO по умолчанию в потоке данных

Я пытаюсь использовать собственный кодер для обработки данных в потоке данных. Я сделал следующее: Экспорт данных из BigQuery в файлы avro Автоматически сгенерировал класс из схемы в этих файлах с помощью avro-tools-1.7.7.jar. Написал...

368 просмотров

apache-beam java google-cloud-dataflow avro kryo

03.06.2023

Выполнить задание потока данных из App Engine

Я относительно новичок в технологии GCP. В настоящее время я занимаюсь POC для создания запланированного задания потока данных, которое загружает (вставляет) данные из облачного хранилища Google в BigQuery. Прочитав несколько руководств и...

799 просмотров

python apache-beam google-cloud-platform google-app-engine google-cloud-dataflow

22.02.2022

Google Dataflow: запись в хранилище данных без перезаписи существующих объектов

TL; DR: поиск способа обновления сущностей хранилища данных без перезаписи существующих данных через поток данных Я использую поток данных 2.0.0 (луч) для обновления объектов в Google Datastore. Мой поток данных загружает объекты из хранилища...

1120 просмотров

apache-beam java google-cloud-datastore google-cloud-dataflow

30.07.2022

Как конвертировать PCollection ‹List ‹String›› в PCollection ‹String› в потоке данных / луче

У меня есть вариант использования, в котором мне нужно вывести несколько T из DoFn. Итак, DoFn функция возвращает PCollection<List<T>> . Я хочу преобразовать его в PCollection<T> , чтобы позже в конвейере я мог просто...

3456 просмотров

apache-beam google-cloud-dataflow

11.04.2022

Scio: groupByKey не работает при использовании Pub/Sub в качестве источника коллекции

Я изменил источник пример WindowsWordCount из текстового файла в облачный Pub/Sub, как показано ниже. Я опубликовал данные шекспировского файла в Pub/Sub, которые были загружены правильно, но ни одно из преобразований после .groupByKey , похоже,...

828 просмотров

apache-beam spotify-scio

22.01.2023

Почему работники Dataflow не чествуют новый Сиднейский регион?

Я пытаюсь установить регион моего конвейера потока данных (Java SDK 2.0.0) на один из australia-southeast1-a , australia-southeast1-b или australia-southeast1-c (т.е. один из регионов в Сиднее): public static void main(String... args) {...

131 просмотров

apache-beam google-cloud-platform google-compute-engine google-cloud-dataflow

11.09.2022

Конвейер вводит 8 миллиардов строк из GCS и выполняет GroupByKey для предотвращения слияния, групповой шаг выполняется очень медленно

Я читаю 8 миллиардов строк из GCS, обрабатываю каждую строку, а затем вывожу. Мой шаг обработки может занять немного времени и избежать истечения срока аренды рабочих и получения ошибки ниже; Я делаю GroupByKey для 8 миллиардов и группирую по...

222 просмотров

apache-beam google-cloud-dataflow etl bigdata

15.01.2023

В пользовательской функции комбинирования лучей выполняется сериализация, даже если объект находится на той же машине?

У нас есть пользовательская функция объединения (в beam sdk 2.0), в которой миллионы объектов накапливаются, но они НЕ обязательно уменьшаются... то есть они иногда добавляются в список, так что в конечном итоге список может стать довольно большие...

391 просмотров

apache-beam google-cloud-dataflow

31.08.2022

Программное создание схемы BigQuery в конвейере Beam

У меня есть коллекция однородных диктов, как мне их записать в BigQuery, не зная схемы? BigQuerySink требует, чтобы я указывал схему при ее создании. Но я не знаю схемы: она определяется ключами диктов, которые я пытаюсь написать. Есть ли...

1255 просмотров

python apache-beam google-bigquery apache-beam-io

28.04.2023

Пункты назначения в Apache Beam

У меня есть PCollection [String], которая говорит «X», которую мне нужно сбросить в таблицу BigQuery. Назначение таблицы и схема для нее в коллекции PCollection [TableRow] говорят «Y». Как сделать это самым простым способом? Я попытался извлечь...

356 просмотров

apache-beam google-cloud-dataflow

18.02.2022

Ошибка в DynamicDestinations: Apache Beam

Я получаю сообщение об ошибке при выполнении кода ниже: tableRows2.apply(BigQueryIO.writeTableRows() .to(new DynamicDestinations<TableRow, TableRow>() { private static final long serialVersionUID = 1L;...

645 просмотров

apache-beam google-cloud-dataflow

09.06.2022

Задание Apache Beam остановлено в Google Cloud - загружен ЦП

мы пытаемся отладить, казалось бы, частично остановившееся задание Apache Beam, выполняющееся в Google Cloud. Наша задача читает сообщения из PubSub, преобразует их различными способами и передает результаты в несколько таблиц BigQuery. Части работы...

431 просмотров

apache-beam google-cloud-platform google-cloud-dataflow

05.06.2022

Как читать файлы как byte[] в Apache Beam?

в настоящее время мы работаем над проверкой концепции Apache Beam Pipeline в облачном потоке данных. Мы помещаем некоторые файлы (без текста, в специальном двоичном формате) в Google Cloud Buckets и хотели бы прочитать эти файлы как byte[] и...

1520 просмотров

apache-beam google-cloud-platform java google-cloud-dataflow apache-beam-io

02.06.2022

Выбрать элементы в processElement () - Apache Beam

Я знаю, что когда мы реализуем преобразование ParDo, мы выбираем отдельные элементы из наших данных (в основном разделенных "\ n"). Но что, если у меня есть элемент, занимающий две строки в моем файле. Могу ли я применить собственное условие для...

154 просмотров

apache-beam google-cloud-dataflow

02.06.2022

Запись в файл в Apache Beam

Я запускаю программу WordCount в Windows, используя Apache Beam через DirectRunner. Я вижу, что выходные файлы создаются во временной папке (в src / main / resources /). Но запись в выходной файл не выполняется. Ниже приведен фрагмент кода:...

2617 просмотров

apache-beam direct-runner

04.07.2023

Публикации по теме 'apache-beam'

Введение в Apache Beam

Вопросы по теме 'apache-beam'

Похожие вопросы