Статьи по тематике apache-spark

Публикации по теме 'apache-spark'

Апач Спарк

Apache Spark — это мощная бесплатная распределенная вычислительная среда с открытым исходным кодом, предназначенная для обработки и анализа больших данных. Он предоставляет интерфейс для программирования крупномасштабных задач обработки данных на кластерах компьютеров. Вот более подробное объяснение Apache Spark и его основных функций: 1. Распределенные вычисления: Apache Spark позволяет распределять данные и вычисления по кластеру машин, обеспечивая параллельную обработку. Он..

Соление: секретный ингредиент для оптимизации рабочих процессов Apache Spark

Неравномерность данных — это распространенная проблема в хранилищах данных, когда некоторые ключи или группы связанных данных содержат гораздо больше данных, чем другие. Это может привести к неравномерному распределению данных между узлами или серверами, что может вызвать проблемы с производительностью. Например, если на одном сервере требуется обработать гораздо больше данных, чем на других, он может стать перегруженным и замедлить время обработки всех данных на этом сервере. Это может..

Определение коллинеарных точек с помощью Apache Spark

In geometry, collinearity of a set of points is the property of their lying on a single line. A set of points with this property is said to be collinear. In this post, I’ll illustrate how you determine collinear points using Apache Spark. This is one of the programming labs of DSE230x Big Data Analytics with Apache Spark. e(filename) Весь код проекта встроен ниже вместе с уценками для некоторых пояснений. Я использую блокноты Jupyter для своих проектов по науке о данных, и,..

Панель управления в реальном времени с Kafka и Spark Streaming

В настоящее время почти каждый разработчик или инженер, ориентированный на данные, или как они там себя называют, говорит о реальном времени, реальном времени и реальном времени ... Большую часть времени я работаю с пакетной обработкой, такой как Hadoop, Hive, Spark и т. Д. Но что, если вам нужно создать информационные панели в реальном времени? Вероятно, наиболее частый ответ: та-да! Apache Kafka и Apache Spark Streaming Но почему мы используем Spark Streaming? Apache Spark..

Развертывание модели PySpark ML в Google Compute Engine в качестве REST API

Пошаговое руководство Этот пост слабо связан с моим предыдущим постом. Пошаговое руководство: анализ настроений PySpark в Google Dataproc В моем предыдущем посте я обучил модель анализа настроений PySpark в Google Dataproc и сохранил модель в Google Cloud Storage. В этом посте я покажу вам, как развернуть модель PySpark в Google Compute Engine в качестве REST API. Я буду использовать модель, которую обучал в своем предыдущем посте, но уверен, что вы сможете внести некоторые..

Безопасное предсказание водителя с использованием PySpark и логистической регрессии

Когда доходит до ресурсов и соревнований по науке о данных и машинному обучению, kaggle - отличное место. Одним из проводившихся там соревнований было Предсказание безопасного водителя от Porto Seguro (крупная страховая компания из Бразилии). По сути, задача состоит в том, чтобы построить модель, которая предсказывает вероятность того, что водитель подаст иск о автостраховании в следующем году. В этом руководстве мы не будем углубляться в построение сложной модели, которая может..

Анализ данных с помощью Scala и Spark: часть 3

Анализ данных с помощью Scala и Spark: часть 3 Доставка кода от клиента к кластеру Второй раздел из серии «Наука о данных и расширенная аналитика в Spark, Scala, AWS и машинном обучении». Предыдущий раздел Apache Spark и Hadoop в кластере AWS с Flintrock medium.com Доставка кода от клиента к кластеру Мы только что рассмотрели несколько способов написания и применения функций к данным в Scala. Весь код, который мы выполнили,..