Сокращение карты: какая используемая базовая структура данных

Мне интересно, если в Hadoop Map Reduce используются такие большие наборы данных, то какие структуры данных используются в Hadoop. Если возможно, пожалуйста, кто-нибудь предоставит мне подробное представление о базовых структурах данных в Hadoop.


person AjayLohani    schedule 24.02.2014    source источник
comment
В Hadoop: the Definitive Guide есть глава, и вы можете просмотреть ее здесь: inkling.com/read/hadoop-definitive-guide-tom-white-3rd/   -  person vefthym    schedule 24.02.2014


Ответы (2)


HDFS — это базовая платформа хранения данных Hadoop по умолчанию. Это похоже на любую другую файловую систему в том смысле, что ей все равно, какая структура у файлов. Это только гарантирует, что файлы будут сохранены в избыточном виде и доступны для быстрого поиска.

Таким образом, вы, пользователь, можете хранить в них файлы с любой структурой, которая вам нравится.

Программа Map Reduce просто получает данные файла в качестве входных данных. Не обязательно весь файл, но его части в зависимости от InputFormats и т. д. Затем программа Map может использовать данные любым удобным для нее способом.

«Улей» - с другой стороны, имеет дело с ТАБЛИЦАМИ (столбцы/строки). И вы можете запросить их в стиле SQL, используя Hive-QL.

person Jasper    schedule 26.02.2014

Всем спасибо

Я получил ответ на свой вопрос. Базовая HDFS использует блоки в качестве единиц хранения, подробное описание которых упоминается в следующей книге и концепции сетевой потоковой передачи.

Все подробности доступны в третьей главе Hadoop: The Definitive Guide.

person AjayLohani    schedule 27.02.2014