Статьи по тематике data-engineering

Публикации по теме 'data-engineering'

ПРЕЗЕНТАЦИЯ ДЛЯ НЕТЕХНИЧЕСКОЙ АУДИТОРИИ В КАЧЕСТВЕ ЭКСПЕРТОВ ПО ДАННЫМ

Общение с нетехническими заинтересованными сторонами может представлять проблему при обсуждении предлагаемого бизнес-решения или применения и развертывания новой технологической модели для решения бизнес-проблемы. Это обычная проблема для всех, от директора по информационным технологиям (CDO) до младших специалистов по данным, когда речь идет о четком донесении сложных технических концепций до высшего руководства, внутренних и внешних клиентов и заказчиков. Может даже показаться, что вы..

Машинное обучение с использованием функций Persistor и Google Cloud

Введение Машинное обучение — очень актуальная тема в современном мире. От классификации и регрессии до кластеризации, мы все сталкивались с этим в той или иной степени. Допустим, у вас нет достаточно мощной машины для обучения и тестирования вашей модели, что вы будете делать? Мы, конечно, надеемся, что вы не сказали, что ушли, потому что есть облачные решения, ожидающие обучения ваших моделей. Google Cloud Platform предлагает специализированные продукты искусственного интеллекта,..

Советы и рекомендации для хорошего конвейера данных о производительности

Что хороший дата-инженер должен время от времени делать, так это поддерживать хорошую общую производительность ваших инструментов ETL. Вам нужно не только проверять, находится ли ваша база данных в хорошем состоянии, например: Создание индексов Удаление любой бесполезной таблицы для экономии места Оптимизация поисковых запросов Использование временных таблиц для выполнения тяжелых операций ЦП Вам также необходимо, чтобы ваше программное обеспечение ETL работало с максимальной..

Введение в Apache Beam

Apache beam - это инструмент обработки данных с открытым исходным кодом, который обеспечивает унифицированную модель как для пакетных, так и для потоковых конвейеров данных. Beam полезен для задач параллельной обработки данных, в которых проблема может быть разложена на множество более мелких пакетов данных, которые можно обрабатывать независимо и параллельно. Его также можно использовать в задачах ETL. Луч Apache построен на Scala, но поддерживает SDK для Java, Python и GO. SDK для..

Интерпретация: библиотеки Python Data Engineering, которые вам нужно знать, но, вероятно, нет

Правильные инструменты для масштабной обработки данных. Работать с Python для инженерии данных - это потрясающе, если в вашем распоряжении нужные инструменты. Попытки исправить неисправный трубопровод все равно, что использовать клейкую ленту: рано или поздно трещины будут видны. Попытка изучить Python-реализации платформ Apache, таких как Airflow, Storm и Kafka Streams, может быть сложной задачей, а также привести к несвязной многоязычной архитектуре. Эти библиотеки помогут вам..

Искусство инженерии данных и ETL

Инжиниринг данных — это самый важный и первый шаг к науке о данных. Он сочетает в себе как часть сбора данных, так и часть анализа. Все ваши гипотезы и скрытые тенденции проверяются данными. Это очень похоже на общение с данными и получение ответов . Например, вы спрашиваете свой набор данных о диабете: «Эй, это заболевание чаще поражает мужчин или женщин?», и данные ваших хороших друзей всегда найдут для вас ответ. Всегда . Но чтобы сделать данные вашим партнером в анализе, вам..

Организация сбора измененных данных в озеро данных

Сбор данных об изменениях (CDC) с помощью Spark Streaming SQL Что такое сбор данных об изменениях? Если вы инженер по обработке данных, CDC не будет казаться вам чуждым. Это подход к интеграции данных, основанный на проверке, фиксации и доставке изменений в интерфейс источника данных. CDC может помочь загрузить исходную таблицу в озеро данных. В базе данных или источнике приложения хранится огромное количество данных, и группа специалистов по работе с данными хотела бы проанализировать..