Программный запуск заданий HDInsight - файл .jar на узле кластера, а не в хранилище больших двоичных объектов

Я следил за этим руководством при отправке заданий mapreduce в HDInsight из консольного приложения .NET.

Он работает нормально, но мне интересно узнать об этой строке:

var jobDefinition = new MapReduceJobCreateParameters()
{
            JarFile = "wasb:///example/jars/hadoop-examples.jar",
            ClassName = "wordcount"
};

«wasb: ///example/jars/hadoop-examples.jar» относится к банке в моей учетной записи хранения Azure, которая была автоматически помещена туда, когда я подключил учетную запись к моему новому кластеру HDInsight.

Выходя за рамки примеров (я хочу использовать Mahout) ... могу ли я ссылаться на банку, которую я добавил в узел кластера? Я установил mahout в каталог apps / dist по RDP. Я могу нормально запускать задания Mahout оттуда, но я не могу соединить эти два шага вместе.

Похоже, мне не нужно добавлять файлы jar в хранилище BLOB-объектов, чтобы использовать их.


person user888734    schedule 11.02.2014    source источник


Ответы (1)


HDInsight использует WASB (хранилище Windows Azure - Blob). Это реализация HDFS в хранилище BLOB-объектов Windows Azure. Если вы можете использовать команду «hadoop fs -ls» для вывода списка jar-файла в HDInsight, значит, этот файл уже находится в WASB. Вы можете использовать синтаксис WASB для ссылки на файл jar. Для получения дополнительной информации см. http://www.windowsazure.com/en-us/documentation/articles/hdinsight-use-blob-storage/.

Существуют некоторые ограничения на настройку кластера HDInsight. Существует два поддерживаемых способа настройки кластеров HDInsight. Один из них использует файл конфигурации в процессе подготовки. Второй - запустить некоторые собственные компоненты Java, которые можно запускать в кластере HDInsight как файлы Jar. Установка приложений по RDP не поддерживается. Вторым поддерживаемым случаем должен стать Mohout. Если файл jar Mohout не находится на WASB, вы можете загрузить файлы jar в WASB с помощью «hadoop fs -copyFromLocal» или с помощью Windows Azure PowerShell. Список методов загрузки см. На странице http://www.windowsazure.com/en-us/documentation/articles/hdinsight-upload-data/.

person Jonathan Gao    schedule 11.02.2014