Загрузка только новых файлов в GoodData

Как я могу использовать компонент "Download File" только для удаленной загрузки новых файлов или файлов, которые были обновлены?


Рассмотрим следующий график:

введите здесь описание изображения

где File Download определяется как:

введите здесь описание изображения

У меня много файлов *.csv в ${S3_OR_DATA_DIR_LOCATION}; Каждый день добавляю).

Как я могу убедиться, что GoodData загружает только новые файлы И файлы, которые были обновлены? Подойдет ли вариант "Overwrite existing files" False? Или это будет загружать только новые файлы и не обновлять существующие файлы, которые были обновлены?


person Amelio Vazquez-Reina    schedule 31.10.2015    source источник


Ответы (1)


Компонент CloudConnect File Download сам по себе не поддерживает такие действия, как загрузка только новых файлов, появившихся в исходной папке, поскольку в нем не реализован какой-либо механизм запоминания предыдущего состояния, но поскольку он input, такой механизм можно реализовать самостоятельно с помощью компонента CloudConnect File List с небольшой помощью Reformat, некоторых компонентов Joiner и CSV Writer CloudConnect. Таким образом, вы можете определить содержимое исходной папки и записать его туда в виде обычного текстового файла. Механизм можно спроектировать таким образом, чтобы следующая обработка считывала файл состояния из предыдущего запуска и определяла, что это за новые файлы, а затем отправляла список новых файлов на входной порт File Download компонента CloudConnect< /сильный>.

Другой способ обработки только новых файлов, который намного проще, чем процесс, описанный в предыдущей статье, и поэтому часто используется, основан на использовании структуры папок в исходной папке, где будет выделенная папка для новых файлов и еще одна выделенная папка для уже обработанных файлов. Затем сам процесс ETL CloudConnect будет считывать новые файлы из своей выделенной исходной папки, а последний этап процесса ETL будет содержать компонент Копирование/перемещение файлов, используемый для передачи уже обработанных новых файлов из своей исходной папки. выделенная папка в папку, содержащую все уже обработанные файлы.

person Filip    schedule 02.11.2015