Мне интересно, если в Hadoop Map Reduce используются такие большие наборы данных, то какие структуры данных используются в Hadoop. Если возможно, пожалуйста, кто-нибудь предоставит мне подробное представление о базовых структурах данных в Hadoop.
Сокращение карты: какая используемая базовая структура данных
Ответы (2)
HDFS — это базовая платформа хранения данных Hadoop по умолчанию. Это похоже на любую другую файловую систему в том смысле, что ей все равно, какая структура у файлов. Это только гарантирует, что файлы будут сохранены в избыточном виде и доступны для быстрого поиска.
Таким образом, вы, пользователь, можете хранить в них файлы с любой структурой, которая вам нравится.
Программа Map Reduce просто получает данные файла в качестве входных данных. Не обязательно весь файл, но его части в зависимости от InputFormats и т. д. Затем программа Map может использовать данные любым удобным для нее способом.
«Улей» - с другой стороны, имеет дело с ТАБЛИЦАМИ (столбцы/строки). И вы можете запросить их в стиле SQL, используя Hive-QL.
Всем спасибо
Я получил ответ на свой вопрос. Базовая HDFS использует блоки в качестве единиц хранения, подробное описание которых упоминается в следующей книге и концепции сетевой потоковой передачи.
Hadoop: the Definitive Guide
есть глава, и вы можете просмотреть ее здесь: inkling.com/read/hadoop-definitive-guide-tom-white-3rd/ - person vefthym   schedule 24.02.2014