Вопросы по теме 'hadoop-partitioning'

Понимание алгоритма mapreduce для расчета перекрытия
Прошу помощи в понимании алгоритма. Сначала я вставил объяснение алгоритма, а затем свои сомнения. Алгоритм: (для вычисления перекрытия между парами записей) При заданном пользователем параметре K файл DR( *Format: record_id, data*)...
871 просмотров

Редукторы Hadoop получают неверные данные
У меня одновременно работает множество JobControls, все с одним и тем же набором ControlledJobs. Каждый JobControl имеет дело с различным набором входных/выходных файлов в зависимости от диапазона дат, но все они одного типа. Проблема, которую я...
287 просмотров

разделение файла hadoop с использованием KeyFieldBasedPartitioner
У меня есть большой файл, который отформатирован следующим образом sample name \t index \t score И я пытаюсь разделить этот файл на основе имени примера с помощью Hadoop Streaming. Я заранее знаю, сколько есть сэмплов, поэтому могу указать,...
1129 просмотров

Порядок выполнения/приоритет задач карты Hadoop
У меня есть ~5000 записей во входном файле Hadoop, но я заранее знаю, что обработка некоторых строк займет гораздо больше времени, чем других (на этапе карты). (В основном потому, что мне нужно скачать файл с Amazon S3, а размер файла зависит от...
901 просмотров

Как Hadoop принимает решение о распределении между сегментами/узлами?
Я новичок в фреймворке Map/Reduce и Hadoop. Я запускаю программу Hadoop на одной машине (чтобы попробовать). У меня есть n входных файлов, и мне нужна сводка слов из этих файлов. Я знаю, что функция карты возвращает пару ключ-значение, но как...
205 просмотров

Проблема при установке hadoop-2.2.0 на 64-битной Linux-машине
Используя эту ссылку, попытался установить версию Hadoop - 2.2.0 (кластер с одним узлом) в Ubuntu 12.04 (64-разрядная машина) http://bigdatahandler.com/hadoop-hdfs/installing-single-node-hadoop-2-2-0-on-ubuntu/ при форматировании файловой...
182 просмотров

Как решить, что chainmapper неприменим для ошибки аргументов при выполнении цепочки заданий в Mapreduce?
Я использую Hadoop 1.2.1, eclipse juno. Я пытаюсь связать три задачи карты в одном задании Mapreduce. при написании кода Mapreduce в eclipse я получаю сообщение об ошибке, например, chainmapper неприменим для аргументов, а также я не могу установить...
757 просмотров

Разделение ввода для функции Map в Hadoop
Это моя первая реализация в Hadoop. Я пытаюсь реализовать свой алгоритм вероятностного набора данных в Map Reduce. В моем наборе данных последний столбец будет иметь некоторый идентификатор (количество уникальных идентификаторов в наборе данных...
1339 просмотров

Как достигается высокая доступность Namenode в Hadoop 1.x?
Есть ли возможное решение для достижения высокой доступности Namenode в Hadoop 1.x?
92 просмотров

Как создать пару ключ-значение в программе mapreduce, если значения хранятся за пределами границ?
Во входном файле, который мне нужно обработать, есть данные, классифицированные по заголовкам и соответствующим записям. Мой файл размером 200 МБ имеет 3 таких заголовка, а его записи разделены на 4 блока (3 * 64 МБ и 1 * 8 МБ). Данные будут в...
226 просмотров
schedule 01.12.2022

HashPartition в MapReduce
Цель : Внедрите HashPartition и проверьте количество редукторов, которые создаются автоматически. Для этой цели всегда приветствуется любая помощь и любой пример кода. Что я сделал : Я запустил программу уменьшения карты с Hash Partition,...
247 просмотров
schedule 08.02.2023

Разделы Spark-SQl DataFrame
Мне нужно загрузить таблицу Hive с помощью spark-sql, а затем запустить на ней алгоритм машинного обучения. Я делаю это письмо: val dataSet = sqlContext.sql(" select * from table") Это работает хорошо, но если бы я хотел увеличить количество...
360 просмотров

Импорт Sqoop: составной первичный ключ и текстовый первичный ключ
Стек: установлен HDP-2.3.2.0-2950 с использованием Ambari 2.1. Исходная схема БД находится на сервере sql и содержит несколько таблиц, которые имеют первичный ключ как: Варчар Составной — два столбца varchar или один varchar + один столбец...
7192 просмотров

Hadoop INFO ipc.Client: повторная попытка подключения к серверу localhost/127.0.0.1:9000
Я читал другие сообщения о проблеме конфигурации HDFS с Hadoop. Однако ни один из них не помог. Итак, публикую свой вопрос. Я следовал этому руководству по Hadoop v1. .2.1. Когда я запускаю команду hadoop fs -ls, я получаю эту ошибку:...
4217 просмотров
schedule 14.05.2024

Как запустить искровую программу на Java параллельно
Итак, у меня есть java-приложение, которое имеет зависимости от искры maven, и при его запуске оно запускает искровой сервер на хосте, на котором он работает. Экземпляр сервера имеет 36 ядер. Я указываю экземпляр SparkSession, где я параллельно...
747 просмотров

Нет разделения хэша при использовании повторного разделения в Spark
Искра doc говорит, что .repartition() возвращает новый DataFrame, который по умолчанию равен Hash-Partitioned . Но в примере, который я использую, как показано ниже, это не так. rdd=sc.parallelize([('a',22),('b',1),('c',4),('b',1),('d',2),...
34 просмотров

Могу ли я создавать сегменты во внешней таблице Hive?
Я создаю внешнюю таблицу, которая ссылается на файлы ORC в расположении HDFS. Файлы ORC хранятся таким образом, что внешняя таблица разбивается на разделы по дате (Сопоставление папок по дате в HDFS как разделы). Однако мне интересно, могу ли я...
904 просмотров

оптимизация чтения из паркетных файлов в s3 bucket
У меня есть большой набор данных в формате паркета (размером ~ 1 ТБ), который разделен на 2 иерархии: CLASS и DATE . Всего 7 классов. Но с 01.01.2020 Дата постоянно увеличивается. Мои данные сначала разделяются на CLASS , а затем на DATE Так...
2359 просмотров

объединение кустовой секционированной, сегментированной таблицы только с сегментированной таблицей (не секционированной таблицей) в улье
у меня есть 2 таблицы: q6_cms_list_key1 (разделенный по cm и se) разделенный tr_dt ... 99 000 000 000 строк q6_cm_first_visit (разделенный по cm и se) 25 000 000 000 строк создание другой таблицы с использованием следующих условий insert...
146 просмотров