Инженеры данных и специалисты по обработке данных — это две стороны одной медали, но у них разные обязанности и навыки. Они оба дополняют друг друга на самом деле.

Инженеры данных проектируют и строят (и, без сомнения, поддерживают :)) конвейеры данных для сбора необработанных данных (могут быть структурированными, полуструктурированными или неструктурированными данными), уточнять их для дальнейшего использования в аналитике и экспортировать в базу данных. хранилище данных, которое будет запрашиваться специалистами по обработке и анализу данных в целях аналитики. Они имеют дело с большими объемами данных от терабайтов до петабайтов. Обычно они работают с такими технологиями, как:

  1. HDFS и S3: для распределенного хранилища.
  2. Hive: для аналитики SQL поверх HDFS.
  3. Spark: быстродействующий механизм распределенных вычислений в памяти для обработки и уточнения данных.
  4. Kafka: распределенная платформа для заказа и потоковой передачи событий
  5. Flink: пример использования потоковой аналитики в реальном времени.
  6. Trino (pka Presto): для распределенного механизма запросов SQL к нескольким источникам данных (например, HDFS).
  7. Магазин метаданных Hive, каталог AWS Glue: для каталога данных для эффективного поиска/запроса
  8. Хранилище данных: например, Snowflake, AWS Redshift, BigQuery для больших аналитических запросов.
  9. Озеро данных. В настоящее время многие инженеры данных также работают с технологиями озера данных, что является последней тенденцией в крупных организациях. Я написал подробный пост об Озере данных.

Исследователи данных, с другой стороны, больше внимания уделяют анализу и интерпретации данных, чтобы извлечь знания из данных. Обычно они используют различные статистические модели и модели машинного обучения, чтобы извлечь из данных значимую информацию для различных прогнозов и решений. Они хорошо разбираются в языках программирования SQL, Python и R.

Приношу извинения за небольшое описание ученых данных, а не инженеров данных, так как я сам инженер данных :)

Я ценю вас и время, которое вы потратили на чтение этого дня! Пожалуйста, следите (и следите) за новыми блогами о больших данных и других новейших технологиях. Здоровья!