Вопросы по теме 'spotify-scio'
Scio: groupByKey не работает при использовании Pub/Sub в качестве источника коллекции
Я изменил источник пример WindowsWordCount из текстового файла в облачный Pub/Sub, как показано ниже. Я опубликовал данные шекспировского файла в Pub/Sub, которые были загружены правильно, но ни одно из преобразований после .groupByKey , похоже,...
828 просмотров
schedule
22.01.2023
Потоковая передача данных из CloudSql в поток данных
В настоящее время мы изучаем, как мы можем обрабатывать большой объем хранилища данных в базе данных Google Cloud SQL (MySQL) с помощью Apache Beam / Google Dataflow.
База данных хранит около 200 ГБ данных в одной таблице.
Мы успешно прочитали...
1695 просмотров
schedule
10.05.2022
Превышен предел накладных расходов сборщика мусора для длительного задания потоковой передачи данных
Выполнение моего задания потокового потока данных в течение более длительного периода времени, как правило, заканчивается ошибкой «Превышен предел служебных данных GC», что приводит к остановке задания. Как мне лучше всего приступить к отладке этого?...
805 просмотров
schedule
31.12.2023
Scio все методы saveAs txt файла выводят текстовый файл с префиксом части
Если я хочу вывести SCollection из TableRow или String в облачное хранилище Google (GCS), я использую saveAsTableRowJsonFile или saveAsTextFile соответственно. Оба эти метода в конечном итоге используют
private[scio] def pathWithShards(path:...
408 просмотров
schedule
08.08.2023
Объединяйте пакетные данные с данными, хранящимися в BigTable
У меня растущие данные в GCS, и у меня будет пакетное задание, которое выполняется, скажем, каждый день, для обработки приращения 1 миллиона статей. Мне нужно получить дополнительную информацию о ключах из BigTable (содержащего миллиарды записей)....
267 просмотров
schedule
22.02.2023
Ранний вывод пакетной обработки Apache Beam?
Есть ли способ запустить ранний вывод окон при работе в пакетном режиме? Я пробовал использовать несколько триггеров с помощью Dataflow runner, чтобы получить ранний вывод окна, но они всегда сохраняются до конца обработки.
174 просмотров
schedule
14.05.2023