Публикации по теме 'apache-beam'


Введение в Apache Beam
Apache beam - это инструмент обработки данных с открытым исходным кодом, который обеспечивает унифицированную модель как для пакетных, так и для потоковых конвейеров данных. Beam полезен для задач параллельной обработки данных, в которых проблема может быть разложена на множество более мелких пакетов данных, которые можно обрабатывать независимо и параллельно. Его также можно использовать в задачах ETL. Луч Apache построен на Scala, но поддерживает SDK для Java, Python и GO. SDK для..

Вопросы по теме 'apache-beam'

Как объединить потоковые данные с большим набором исторических данных в Dataflow / Beam
Я исследую обработку журналов сеансов веб-пользователей через Google Dataflow / Apache Beam, и мне нужно объединить журналы пользователя по мере их поступления (потоковая передача) с историей сеанса пользователя за последний месяц. Я рассмотрел...
2533 просмотров

Ограничение количества значений на ключ
В настоящее время у нас есть процесс потока данных, в котором у нас есть GroupByKey , но DoPar после группировки получает слишком много значений для каждого ключа, и мы хотели знать, есть ли для этого хорошее решение. Насколько я могу судить,...
433 просмотров

Как CoGroupByKey работает с отбрасыванием FiredPanes?
Т.е., если у меня есть GlobalWindow с триггером, который срабатывает для каждого нового элемента в каждой коллекции, для которого установлено значение discardingFiredPanes, будет ли CoGroupByKey срабатывать с левым нулем, когда правый вызывает пожар,...
754 просмотров
schedule 30.03.2023

JDBC Fetch из оракула с Beam
Приведенная ниже программа предназначена для подключения к Oracle 11g и извлечения записей. Как бы то ни было, это дает мне исключение NullPointerException для кодера в pipe.apply(). Я добавил ojdbc14.jar в зависимости проекта. public static...
2068 просмотров
schedule 14.07.2022

Получено сообщение больше чем max в конвейере пакетной обработки
Я получаю это сообщение в конвейере пакетной обработки, который ежедневно работает в облачной службе потока данных Google. Он начал терпеть неудачу со следующим сообщением: (88b342a0e3852af3): java.io.IOException: INVALID_ARGUMENT: Received...
386 просмотров
schedule 05.06.2022

Переопределить кодер AvroIO по умолчанию в потоке данных
Я пытаюсь использовать собственный кодер для обработки данных в потоке данных. Я сделал следующее: Экспорт данных из BigQuery в файлы avro Автоматически сгенерировал класс из схемы в этих файлах с помощью avro-tools-1.7.7.jar. Написал...
368 просмотров

Выполнить задание потока данных из App Engine
Я относительно новичок в технологии GCP. В настоящее время я занимаюсь POC для создания запланированного задания потока данных, которое загружает (вставляет) данные из облачного хранилища Google в BigQuery. Прочитав несколько руководств и...
799 просмотров

Google Dataflow: запись в хранилище данных без перезаписи существующих объектов
TL; DR: поиск способа обновления сущностей хранилища данных без перезаписи существующих данных через поток данных Я использую поток данных 2.0.0 (луч) для обновления объектов в Google Datastore. Мой поток данных загружает объекты из хранилища...
1120 просмотров

Как конвертировать PCollection ‹List ‹String›› в PCollection ‹String› в потоке данных / луче
У меня есть вариант использования, в котором мне нужно вывести несколько T из DoFn. Итак, DoFn функция возвращает PCollection<List<T>> . Я хочу преобразовать его в PCollection<T> , чтобы позже в конвейере я мог просто...
3456 просмотров
schedule 11.04.2022

Scio: groupByKey не работает при использовании Pub/Sub в качестве источника коллекции
Я изменил источник пример WindowsWordCount из текстового файла в облачный Pub/Sub, как показано ниже. Я опубликовал данные шекспировского файла в Pub/Sub, которые были загружены правильно, но ни одно из преобразований после .groupByKey , похоже,...
828 просмотров
schedule 22.01.2023

Почему работники Dataflow не чествуют новый Сиднейский регион?
Я пытаюсь установить регион моего конвейера потока данных (Java SDK 2.0.0) на один из australia-southeast1-a , australia-southeast1-b или australia-southeast1-c (т.е. один из регионов в Сиднее): public static void main(String... args) {...
131 просмотров

Конвейер вводит 8 миллиардов строк из GCS и выполняет GroupByKey для предотвращения слияния, групповой шаг выполняется очень медленно
Я читаю 8 миллиардов строк из GCS, обрабатываю каждую строку, а затем вывожу. Мой шаг обработки может занять немного времени и избежать истечения срока аренды рабочих и получения ошибки ниже; Я делаю GroupByKey для 8 миллиардов и группирую по...
222 просмотров

В пользовательской функции комбинирования лучей выполняется сериализация, даже если объект находится на той же машине?
У нас есть пользовательская функция объединения (в beam sdk 2.0), в которой миллионы объектов накапливаются, но они НЕ обязательно уменьшаются... то есть они иногда добавляются в список, так что в конечном итоге список может стать довольно большие...
391 просмотров
schedule 31.08.2022

Программное создание схемы BigQuery в конвейере Beam
У меня есть коллекция однородных диктов, как мне их записать в BigQuery, не зная схемы? BigQuerySink требует, чтобы я указывал схему при ее создании. Но я не знаю схемы: она определяется ключами диктов, которые я пытаюсь написать. Есть ли...
1255 просмотров

Пункты назначения в Apache Beam
У меня есть PCollection [String], которая говорит «X», которую мне нужно сбросить в таблицу BigQuery. Назначение таблицы и схема для нее в коллекции PCollection [TableRow] говорят «Y». Как сделать это самым простым способом? Я попытался извлечь...
356 просмотров
schedule 18.02.2022

Ошибка в DynamicDestinations: Apache Beam
Я получаю сообщение об ошибке при выполнении кода ниже: tableRows2.apply(BigQueryIO.writeTableRows() .to(new DynamicDestinations<TableRow, TableRow>() { private static final long serialVersionUID = 1L;...
645 просмотров
schedule 09.06.2022

Задание Apache Beam остановлено в Google Cloud - загружен ЦП
мы пытаемся отладить, казалось бы, частично остановившееся задание Apache Beam, выполняющееся в Google Cloud. Наша задача читает сообщения из PubSub, преобразует их различными способами и передает результаты в несколько таблиц BigQuery. Части работы...
431 просмотров

Как читать файлы как byte[] в Apache Beam?
в настоящее время мы работаем над проверкой концепции Apache Beam Pipeline в облачном потоке данных. Мы помещаем некоторые файлы (без текста, в специальном двоичном формате) в Google Cloud Buckets и хотели бы прочитать эти файлы как byte[] и...
1520 просмотров

Выбрать элементы в processElement () - Apache Beam
Я знаю, что когда мы реализуем преобразование ParDo, мы выбираем отдельные элементы из наших данных (в основном разделенных "\ n"). Но что, если у меня есть элемент, занимающий две строки в моем файле. Могу ли я применить собственное условие для...
154 просмотров
schedule 02.06.2022

Запись в файл в Apache Beam
Я запускаю программу WordCount в Windows, используя Apache Beam через DirectRunner. Я вижу, что выходные файлы создаются во временной папке (в src / main / resources /). Но запись в выходной файл не выполняется. Ниже приведен фрагмент кода:...
2617 просмотров
schedule 04.07.2023