Хранилище с использованием HDInsight Hadoop

Мне очень любопытно узнать одну информацию о hadoop hdinsight.

Эта статья от Microsoft: https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/

объясняет, что внутри Hadoop используется учетная запись хранения для хранения данных.

Если предположить, что приведенная выше информация является подходом, то в чем разница между учетной записью хранения и Hadoop. Если я хочу просто хранить информацию, такую ​​как файлы и т. д., я могу просто использовать только учетную запись хранения вместо создания hdinsight hadoop? Кроме того, если hadoop «hadoopCluster» использует учетную запись хранения «stgAccount», означает ли это, что пространство учетной записи хранения «stgAccount» и «hadoopCluster< /strong>' пространство такое же?


person user1400915    schedule 01.09.2015    source источник


Ответы (2)


По сути, развертывание HDInsight состоит из двух частей:

  1. Кластер HDInsight, состоящий из нескольких головных и рабочих узлов (виртуальных машин, на которых работает программное обеспечение).
  2. Хранилище BLOB-объектов Azure, в котором вы храните данные.

Хранилище BLOB-объектов Azure — это безопасное распределенное хранилище для ваших данных. Вы можете использовать его независимо от того, используете ли вы HDInsight или нет. Это просто облачное хранилище со своей ценой. Поэтому, если вы просто хотите хранить файлы в облаке, HDInsight вам точно не понадобится.

Кластер HDInsight — нет. На самом деле, вы увидите, что все, что вы храните, например, на дисках головного узла напрямую, время от времени исчезает.

Кластер HDInsight имеет доступ к хранилищу, которое вы указали при создании кластера, и может читать и записывать данные в это хранилище.

person benohead    schedule 01.09.2015

Просто чтобы добавить к ответу benohead, вы можете использовать Azure Blob store в качестве хранилища или недавно выпущенного Azure Data Lake Store (ADLS) — масштабируемое и производительное хранилище для рабочих нагрузок больших данных. Поскольку HDInsight отделяет вычислительные ресурсы от хранилища, можно использовать виртуальные машины для вычислений, а Azure Blog или ADLS — для хранения. Вы можете использовать Azure Blob или ADLS, не используя вычислительные ресурсы, предоставляемые HDInsight.

person Rashim Gupta    schedule 06.01.2016