Что хороший дата-инженер должен время от времени делать, так это поддерживать хорошую общую производительность ваших инструментов ETL.
Вам нужно не только проверять, находится ли ваша база данных в хорошем состоянии, например:

  • Создание индексов
  • Удаление любой бесполезной таблицы для экономии места
  • Оптимизация поисковых запросов
  • Использование временных таблиц для выполнения тяжелых операций ЦП

Вам также необходимо, чтобы ваше программное обеспечение ETL работало с максимальной скоростью, как мы можем этого добиться?
В первую очередь для анализа того, что должно делать ваше программное обеспечение и как оно развивается. Вы знаете, что когда вы напишете свою версию «Mk.1», она не будет такой же, как «Mk.15», поэтому вам нужно перепроверить ее функциональность:

  • Проведите функциональный анализ вашего программного обеспечения
  • Предскажите, каким он станет в будущем, покрывая, сколько потребностей вы можете обдумать
  • Избегайте написания бесполезных функций и поддерживайте их настолько простыми, насколько это возможно (принцип KISS?)

После того, как вы закончили с анализом, давайте проделаем грязную работу:

  • Перепишите свой код, сделав его менее тяжелым и более эффективным, не меняя при этом никакой логики.
  • Старайтесь поддерживать линейную сложность ваших операций
  • Если вы можете потребовать любую операцию ЦП для графического процессора в зависимости от вашего языка программирования
  • Если есть какая-либо связанная с БД операция, запишите хранимую процедуру и вызывайте ее всякий раз, когда можете. (Не выполняйте запрос, получая результат полностью в оперативной памяти!)
  • Старайтесь избегать ненужных операций, таких как изменение имени столбца, но оставьте логику максимально простой (KISS ftw).

Это некоторые из операций, которые вам необходимо выполнить, чтобы поддерживать ваше программное обеспечение как можно более легким и молодым, очевидно, если необходимо, перепишите весь свой код с помощью нового, более полезного языка программирования.

Какой-нибудь совет от вас? Я что-то ошибаюсь?
Пишите в комментариях.
Обновления уже в пути!