Мой конвейер (python) записывает текстовые данные, которые считываются из BigQuery. Насколько мне известно, у меня есть два варианта записи текстовых данных в S3.
Первый вариант — это «подкласс Writer» пользовательского приемника, который записывает каждую запись в каталог корзины S3. По моему опыту, эффективность передачи очень низкая. Писатель тратит около секунды на 1 запись (также в моем источнике данных миллионы записей!!)
Второй вариант — отправить текстовые данные в GCS, которые были заранее записаны в GCS. Мне кажется, этот вариант неэффективен. Причина в том, что между GCS и DataFlow возникает ненужный трафик (загрузка/выгрузка). (Мой конвейер не требует хранения текстовых данных в GCS)
Есть ли лучший способ записи в S3, чем мои два варианта?
С уважением.