Публикации по теме 'data-engineering'


Потоковая передача набора данных для конвейеров машинного обучения с помощью SceneBox
TL;DR: теперь пользователи SceneBox могут использовать StreamableSets для потоковой передачи тщательно подобранных наборов данных непосредственно из облака SceneBox в обучающие конвейеры PyTorch — молниеносно быстро! Алгоритмы машинного обучения стали повсеместными в большинстве современных технологических продуктов. Каждый день крутится куча этих алгоритмов. Чтобы кормить этого зверя машинного обучения, данные собираются в порядке петабайтов. Именно в этой области процветает..

Fast Data Quality Framework на основе больших ожиданий
В моей предыдущей статье я объяснил, как вы можете построить и внедрить мониторинг качества данных в своем озере данных с помощью Great Expectations (GE) и Allure Serverless. Хотя процесс, который я описал, довольно прост и понятен, ручная реализация может потребовать много времени и ресурсов, поэтому я предлагаю более быстрый способ повысить качество данных в новой среде. В этой статье я обсуждаю ограничения предыдущего подхода и предлагаю способы их обойти. Суть работы Моя цель..

Руководство по собеседованию по инженерии данных
Лучший инструмент подготовки к собеседованию с менеджером по инженерии данных с вопросами и ответами Я провел собеседование с сотнями кандидатов на должность менеджера по обработке данных. Вот мое исчерпывающее руководство по подготовке к собеседованию. Я разбил свой совет на четыре части, чтобы помочь вам пройти следующее собеседование по инженерии данных: Понимание спецификации работы Подготовка к технической оценке Подготовка схемы архитектуры Отработка навыков..

Руководство для начинающих по науке о данных
Руководство для начинающих по науке о данных Как я научился не волноваться и полюбил поле Этот блог охватывает все основные темы для начала вашей карьеры в науке о данных: 🧭 Исследование против эксплуатации 🤓 Получите теоретическое преимущество 💼 Создайте свое профессиональное портфолио 🔥 Научитесь рассказывать истории с помощью данных ❤️ Следите за пульсом сообщества Спрос на специалистов по данным неуклонно растет в последнее десятилетие, причем львиная доля приходится на такие..

Программирование Kafka на Java с сериализацией Protobuf
Буфер протокола Google (protobuf) – это хорошо известный формат сериализации данных, который эффективен (меньше и быстрее, чем json) и не зависит как от платформы, так и от языка. Этот пост посвящен тому, как мы можем использовать формат сериализации protobuf для отправки сообщений в тему kafka и их чтения. Я также вставил ссылку на github в конце для полного рабочего кода. Вот мой другой пост о программировании kafka с сериализацией Avro :..

Является ли построение моделей самым сложным разделом науки о данных? - Возможно, нет
Построение моделей часто считается самым сложным разделом науки о данных. Это требует глубокого понимания статистических методов, а также способности анализировать и интерпретировать большие объемы данных. Однако, хотя построение моделей, безусловно, может быть сложной задачей, возможно, это не самый сложный раздел науки о данных. В этом сообщении блога мы рассмотрим некоторые другие разделы науки о данных, которые могут быть столь же или даже более сложными, чем построение моделей...

Развертывание решений для машинного обучения
№ 2 в серии «Развитие науки о данных» Работая над данными, они преследуют две основные цели: Решить бизнес-проблему с учетом рекомендаций и ограничений, предоставленных бизнесом Передайте решение тем, кто будет им управлять Этот подход имеет ряд существенных недостатков, а именно: Специалисты по данным не поддерживают решение — у них нет шкуры на кону Процесс индустриализации идет медленно и может привести к моделям, которые больше не актуальны и, возможно, совершенно..