Инженеры данных и специалисты по обработке данных — это две стороны одной медали, но у них разные обязанности и навыки. Они оба дополняют друг друга на самом деле.
Инженеры данных проектируют и строят (и, без сомнения, поддерживают :)) конвейеры данных для сбора необработанных данных (могут быть структурированными, полуструктурированными или неструктурированными данными), уточнять их для дальнейшего использования в аналитике и экспортировать в базу данных. хранилище данных, которое будет запрашиваться специалистами по обработке и анализу данных в целях аналитики. Они имеют дело с большими объемами данных от терабайтов до петабайтов. Обычно они работают с такими технологиями, как:
- HDFS и S3: для распределенного хранилища.
- Hive: для аналитики SQL поверх HDFS.
- Spark: быстродействующий механизм распределенных вычислений в памяти для обработки и уточнения данных.
- Kafka: распределенная платформа для заказа и потоковой передачи событий
- Flink: пример использования потоковой аналитики в реальном времени.
- Trino (pka Presto): для распределенного механизма запросов SQL к нескольким источникам данных (например, HDFS).
- Магазин метаданных Hive, каталог AWS Glue: для каталога данных для эффективного поиска/запроса
- Хранилище данных: например, Snowflake, AWS Redshift, BigQuery для больших аналитических запросов.
- Озеро данных. В настоящее время многие инженеры данных также работают с технологиями озера данных, что является последней тенденцией в крупных организациях. Я написал подробный пост об Озере данных.
Исследователи данных, с другой стороны, больше внимания уделяют анализу и интерпретации данных, чтобы извлечь знания из данных. Обычно они используют различные статистические модели и модели машинного обучения, чтобы извлечь из данных значимую информацию для различных прогнозов и решений. Они хорошо разбираются в языках программирования SQL, Python и R.
Приношу извинения за небольшое описание ученых данных, а не инженеров данных, так как я сам инженер данных :)
Я ценю вас и время, которое вы потратили на чтение этого дня! Пожалуйста, следите (и следите) за новыми блогами о больших данных и других новейших технологиях. Здоровья!