Статьи по тематике hadoop-partitioning

Вопросы по теме 'hadoop-partitioning'

Понимание алгоритма mapreduce для расчета перекрытия

Прошу помощи в понимании алгоритма. Сначала я вставил объяснение алгоритма, а затем свои сомнения. Алгоритм: (для вычисления перекрытия между парами записей) При заданном пользователем параметре K файл DR( *Format: record_id, data*)...

871 просмотров

12.06.2023

Редукторы Hadoop получают неверные данные

У меня одновременно работает множество JobControls, все с одним и тем же набором ControlledJobs. Каждый JobControl имеет дело с различным набором входных/выходных файлов в зависимости от диапазона дат, но все они одного типа. Проблема, которую я...

287 просмотров

java hadoop mapreduce hadoop-partitioning

18.03.2022

разделение файла hadoop с использованием KeyFieldBasedPartitioner

У меня есть большой файл, который отформатирован следующим образом sample name \t index \t score И я пытаюсь разделить этот файл на основе имени примера с помощью Hadoop Streaming. Я заранее знаю, сколько есть сэмплов, поэтому могу указать,...

1129 просмотров

hadoop mapreduce hadoop-partitioning hadoop-streaming

17.04.2022

Порядок выполнения/приоритет задач карты Hadoop

У меня есть ~5000 записей во входном файле Hadoop, но я заранее знаю, что обработка некоторых строк займет гораздо больше времени, чем других (на этапе карты). (В основном потому, что мне нужно скачать файл с Amazon S3, а размер файла зависит от...

901 просмотров

hadoop mapreduce hadoop-partitioning priority-queue

23.06.2022

Как Hadoop принимает решение о распределении между сегментами/узлами?

Я новичок в фреймворке Map/Reduce и Hadoop. Я запускаю программу Hadoop на одной машине (чтобы попробовать). У меня есть n входных файлов, и мне нужна сводка слов из этих файлов. Я знаю, что функция карты возвращает пару ключ-значение, но как...

205 просмотров

hadoop mapreduce distributed-computing hadoop-partitioning

17.10.2023

Проблема при установке hadoop-2.2.0 на 64-битной Linux-машине

Используя эту ссылку, попытался установить версию Hadoop - 2.2.0 (кластер с одним узлом) в Ubuntu 12.04 (64-разрядная машина) http://bigdatahandler.com/hadoop-hdfs/installing-single-node-hadoop-2-2-0-on-ubuntu/ при форматировании файловой...

182 просмотров

hadoop hadoop-partitioning hadoop2 hadoop-plugins hadoop-streaming

27.02.2023

Как решить, что chainmapper неприменим для ошибки аргументов при выполнении цепочки заданий в Mapreduce?

Я использую Hadoop 1.2.1, eclipse juno. Я пытаюсь связать три задачи карты в одном задании Mapreduce. при написании кода Mapreduce в eclipse я получаю сообщение об ошибке, например, chainmapper неприменим для аргументов, а также я не могу установить...

757 просмотров

eclipse hadoop hadoop-partitioning hadoop2 hadoop-streaming

16.08.2022

Разделение ввода для функции Map в Hadoop

Это моя первая реализация в Hadoop. Я пытаюсь реализовать свой алгоритм вероятностного набора данных в Map Reduce. В моем наборе данных последний столбец будет иметь некоторый идентификатор (количество уникальных идентификаторов в наборе данных...

1339 просмотров

python hadoop hadoop-partitioning hadoop2 hadoop-streaming

23.07.2022

Как достигается высокая доступность Namenode в Hadoop 1.x?

Есть ли возможное решение для достижения высокой доступности Namenode в Hadoop 1.x?

92 просмотров

hadoop hadoop-partitioning hadoop2 hadoop-streaming

19.05.2023

Как создать пару ключ-значение в программе mapreduce, если значения хранятся за пределами границ?

Во входном файле, который мне нужно обработать, есть данные, классифицированные по заголовкам и соответствующим записям. Мой файл размером 200 МБ имеет 3 таких заголовка, а его записи разделены на 4 блока (3 * 64 МБ и 1 * 8 МБ). Данные будут в...

226 просмотров

hadoop mapreduce hadoop-partitioning

01.12.2022

HashPartition в MapReduce

Цель : Внедрите HashPartition и проверьте количество редукторов, которые создаются автоматически. Для этой цели всегда приветствуется любая помощь и любой пример кода. Что я сделал : Я запустил программу уменьшения карты с Hash Partition,...

247 просмотров

hadoop mapreduce hadoop-partitioning

08.02.2023

Разделы Spark-SQl DataFrame

Мне нужно загрузить таблицу Hive с помощью spark-sql, а затем запустить на ней алгоритм машинного обучения. Я делаю это письмо: val dataSet = sqlContext.sql(" select * from table") Это работает хорошо, но если бы я хотел увеличить количество...

360 просмотров

apache-spark apache-spark-sql hadoop-partitioning

14.01.2023

Импорт Sqoop: составной первичный ключ и текстовый первичный ключ

Стек: установлен HDP-2.3.2.0-2950 с использованием Ambari 2.1. Исходная схема БД находится на сервере sql и содержит несколько таблиц, которые имеют первичный ключ как: Варчар Составной — два столбца varchar или один varchar + один столбец...

7192 просмотров

hadoop hive hadoop-partitioning sqoop hortonworks-data-platform

10.05.2022

Hadoop INFO ipc.Client: повторная попытка подключения к серверу localhost/127.0.0.1:9000

Я читал другие сообщения о проблеме конфигурации HDFS с Hadoop. Однако ни один из них не помог. Итак, публикую свой вопрос. Я следовал этому руководству по Hadoop v1. .2.1. Когда я запускаю команду hadoop fs -ls, я получаю эту ошибку:...

4217 просмотров

linux hadoop hdfs hadoop-partitioning

14.05.2024

Как запустить искровую программу на Java параллельно

Итак, у меня есть java-приложение, которое имеет зависимости от искры maven, и при его запуске оно запускает искровой сервер на хосте, на котором он работает. Экземпляр сервера имеет 36 ядер. Я указываю экземпляр SparkSession, где я параллельно...

747 просмотров

java apache-spark parallel-processing hadoop-partitioning apache-spark-dataset

15.12.2022

Нет разделения хэша при использовании повторного разделения в Spark

Искра doc говорит, что .repartition() возвращает новый DataFrame, который по умолчанию равен Hash-Partitioned . Но в примере, который я использую, как показано ниже, это не так. rdd=sc.parallelize([('a',22),('b',1),('c',4),('b',1),('d',2),...

34 просмотров

python apache-spark dataframe rdd hadoop-partitioning

21.03.2023

Могу ли я создавать сегменты во внешней таблице Hive?

Я создаю внешнюю таблицу, которая ссылается на файлы ORC в расположении HDFS. Файлы ORC хранятся таким образом, что внешняя таблица разбивается на разделы по дате (Сопоставление папок по дате в HDFS как разделы). Однако мне интересно, могу ли я...

904 просмотров

bucket hadoop hive hiveql hadoop-partitioning

11.04.2022

оптимизация чтения из паркетных файлов в s3 bucket

У меня есть большой набор данных в формате паркета (размером ~ 1 ТБ), который разделен на 2 иерархии: CLASS и DATE . Всего 7 классов. Но с 01.01.2020 Дата постоянно увеличивается. Мои данные сначала разделяются на CLASS , а затем на DATE Так...

2359 просмотров

amazon-s3 parquet apache-spark pyspark hadoop-partitioning

11.02.2024

объединение кустовой секционированной, сегментированной таблицы только с сегментированной таблицей (не секционированной таблицей) в улье

у меня есть 2 таблицы: q6_cms_list_key1 (разделенный по cm и se) разделенный tr_dt ... 99 000 000 000 строк q6_cm_first_visit (разделенный по cm и se) 25 000 000 000 строк создание другой таблицы с использованием следующих условий insert...

146 просмотров

bucket hive query-optimization hiveql hadoop-partitioning

29.11.2022

Вопросы по теме 'hadoop-partitioning'

Похожие вопросы