Azure Spark SQL и U-SQL

У меня есть много файлов данных, которые в конечном итоге будут передаваться и храниться в Azure Storage/Data Lake через регулярные промежутки времени. Я хочу предоставить возможность выполнять аналитику этих данных, но потом вижу, что в Azure есть два подхода:

  1. Запрос U-SQL/Azure Data Lake (визуализация???)
  2. Spark SQL с использованием Spark в Azure и Zeppelin

может ли кто-нибудь предложить мне, когда использовать какой из этих подходов? мне кажется, что оба могут выполнять одинаковую работу.


person Kiran    schedule 23.02.2016    source источник


Ответы (1)


Вы можете думать об U-SQL как о версии Microsoft Spark SQL, где вы можете писать SQL в стиле SQL Server и расширять его с помощью определяемых пользователем функций на C#. В то время как со Spark вы пишете SQL в стиле Semi MySQL и расширяете его с помощью Scala или Python.

Если вы знакомы со Scala или Python, лучшим выбором будет HDInsight. Spark поставляется с GraphX ​​и MLLib, которые на данный момент не имеют аналогов в Data Lake Analytics. Кроме того, если вам нужно что-то, что работает за пределами Azure, SparkSQL — ваш единственный вариант.

Еще один важный параметр, о котором стоит подумать, — это цена. Data Lake Analytics стоит денег только во время выполнения вашего запроса, но HDInsight стоит денег, пока работает кластер. В зависимости от размера данных и сложности ваших запросов Data Lake Analytics может быть дешевле, поскольку вы не платите за это во время подготовки.

person wm_eddie    schedule 23.02.2016
comment
Еще один аспект, который следует учитывать, помимо @wm_eddie, заключается в том, что сегодня U-SQL доступен только для пакетных рабочих нагрузок, в то время как SparkSQL имеет интерактивный интерфейс через записные книжки. Одно предостережение в момент написания этого комментария заключается в том, что Spark в HDInsight еще не работает с ADLS (см. stackoverflow.com/a/ 35569240/1318169). - person Michael Rys; 24.02.2016
comment
Spark/PySpark теперь поддерживаются в HDInsight. После нескольких месяцев (~6) работы с ADLA и пары месяцев с HDInsight все сводится к:: набору навыков пользователей платформы и поддержке платформы; Потребность в постоянном кластере против кластера по запросу; и тип/размер данных, которые необходимо обработать. Я постоянно обнаруживаю, что аналитики быстрее осваивают U-SQL, поскольку они уже знают ANSI SQL, но инженеры данных, как правило, тяготеют к Spark. Кроме того, U-SQL требует чистых/структурированных данных. HDInsight также лучше интегрируется с PowerBI. пс. Я бы использовал ноутбуки Jupyter, но конфигурация Yarn имеет решающее значение. - person jatal; 12.02.2018