Публикации по теме 'data-engineering'


Потоковое вещание в реальном времени с Google Pub/Sub: введение и пошаговое руководство
В современном быстро меняющемся мире обработка данных и обмен сообщениями в режиме реального времени становятся все более важными, особенно для приложений, требующих мгновенной связи и принятия решений. Google Pub/Sub – это мощная служба обмена сообщениями, которая обеспечивает потоковую передачу данных и обмен данными между независимыми приложениями в режиме реального времени . В этой статье мы познакомим вас с Google Pub/Sub, обсудим, чем он полезен, и предоставим пошаговое руководство..

Что такое МЛОпс?
Какие проблемы решает MLOps и лучшие практики Создание модели машинного обучения включает в себя создание модели, ее обучение, настройку и развертывание. Этот процесс должен быть: Масштабируемость Совместный Воспроизводимый Например, было бы прискорбно построить отличную модель, но не воспроизвести результаты в производственной среде. Набор принципов, инструментов и методов, обеспечивающих масштабируемость, совместную работу и воспроизводимость моделей машинного обучения,..

Как мы разработали и интегрировали Feature Store в наш конвейер машинного обучения
Архитектура хранилища функций и использование Когда-то у меня была возможность возглавить проект по разработке магазина функций. Это была замечательная возможность учиться и создавать что-то великое. Теперь я хочу немного рассказать об этом опыте, и я надеюсь, вам понравится это читать. Прежде чем говорить о хранилищах функций, давайте разберемся, почему это важно для проектов по науке о данных. Мы можем рассматривать науку о данных в очень упрощенном виде как трехэтапный процесс,..

Воздушный поток Apache: пулы
Оптимизация параллелизма рабочих процессов с помощью пулов в Apache Airflow Введение: Apache Airflow — это мощная платформа для организации рабочих процессов и управления ими. Одной из его ключевых особенностей является концепция пулов, которая позволяет эффективно управлять ресурсами и контролировать параллелизм в ваших рабочих процессах. В Apache Airflow пулы позволяют распределять ресурсы, приоритизировать задачи и предотвращать чрезмерное использование, что приводит к..

Инженеры данных против специалистов по данным
Инженеры данных и специалисты по обработке данных — это две стороны одной медали, но у них разные обязанности и навыки. Они оба дополняют друг друга на самом деле. Инженеры данных проектируют и строят (и, без сомнения, поддерживают :)) конвейеры данных для сбора необработанных данных (могут быть структурированными, полуструктурированными или неструктурированными данными), уточнять их для дальнейшего использования в аналитике и экспортировать в базу данных. хранилище данных,..

Состояние инженерии данных в 2021 году
Взгляните на всю экосистему инструментов и технологий инженерии данных. Примечание. Эта статья написана доктором философии Эйнат Орр и опубликована в блоге lakeFS 5 мая 2021 года. Начнем с очевидного: проект lakeFS не существует изолированно. Он принадлежит к более крупной экосистеме инструментов и технологий инженерии данных, смежных с проблемами , которые мы решаем, и дополняющих их. Я подумал, что лучший способ визуализировать наше место в этой экосистеме, чем создать поперечный..

Чтобы стать специалистом по данным в возрасте 18 лет, требуется самоотверженность, целеустремленность и сильное внимание к…
Чтобы стать специалистом по данным в возрасте 18 лет, требуется самоотверженность, целеустремленность и сосредоточенность на развитии необходимых навыков. Вот дорожная карта, которая поможет вам в вашем путешествии: 1. Развить прочную основу в математике и статистике:  – Сосредоточьтесь на изучении и освоении фундаментальных математических понятий, таких как исчисление, линейная алгебра и теория вероятностей.  – Приобретите навыки в статистике, чтобы понять методы анализа данных и..