Вопросы по теме 'google-hadoop'

Перенос данных объемом 50 ТБ из локального кластера Hadoop в Google Cloud Storage
Я пытаюсь перенести существующие данные (JSON) в своем кластере Hadoop в Google Cloud Storage. Я изучил GSUtil, и кажется, что это рекомендуемый вариант для перемещения больших наборов данных в GCS. Кажется, что он может обрабатывать огромные...
7604 просмотров

Hadoop не может подключиться к Google Cloud Storage
Я пытаюсь подключить Hadoop, работающий на виртуальной машине Google Cloud, к облачному хранилищу Google. У меня есть: Изменен core-site.xml, чтобы включить свойства fs.gs.impl и fs.AbstractFileSystem.gs.impl Загрузил файл...
3587 просмотров

Работа Spark, кажется, плохо распараллеливается
Использование Спарк 1.1 У меня есть работа, которая работает следующим образом: Читает список папок в заданном корне, распараллеливает список Для каждой папки прочитайте файлы в ней - это файлы, заархивированные gzip. Для каждого файла...
1394 просмотров

Spark - слишком много открытых файлов в случайном порядке
Использование Спарк 1.1 У меня есть 2 набора данных. Один очень большой, а другой был уменьшен (с использованием фильтрации 1:100) до гораздо меньшего масштаба. Мне нужно уменьшить большой набор данных до того же масштаба, объединив только те...
5226 просмотров
schedule 02.04.2023

Ошибка при запуске Spark в экземпляре облака Google
Я запускаю отдельное приложение с использованием Apache Spark, и когда я загружаю все свои данные в RDD в виде текстового файла, я получаю следующую ошибку: 15/02/27 20:34:40 ERROR Utils: Uncaught exception in thread stdout writer for python...
806 просмотров

Сбой метода сбора SparkR с OutOfMemory в пространстве кучи Java
С помощью SparkR я пытаюсь использовать PoC для сбора RDD, который я создал из текстовых файлов, содержащих около 4 миллионов строк. Мой кластер Spark работает в Google Cloud, развернут bdutil и состоит из 1 главного и 2 рабочих с 15 ГБ ОЗУ и 4...
1811 просмотров
schedule 29.06.2022

Как создать каталог в HDFS на Google Cloud Platform через Java API
Я запускаю кластер Hadoop на облачной платформе Google, используя облачное хранилище Google в качестве серверной части для постоянных данных. Я могу подключиться к главному узлу по ssh с удаленного компьютера и запустить команды Hadoop fs. В любом...
1321 просмотров
schedule 21.06.2022

Коннектор BigQuery для pyspark через пример входного формата Hadoop
У меня есть большой набор данных, хранящийся в таблице BigQuery, и я хотел бы загрузить его в RDD pypark для обработки данных ETL. Я понял, что BigQuery поддерживает формат ввода-вывода Hadoop....
1552 просмотров

Никогда не строил большой кластер hadoop&spark.
Мне было интересно, может ли кто-нибудь помочь мне с этой проблемой при развертывании искрового кластера с помощью инструмента bdutil. При увеличении общего количества ядер (>= 1024) он все время выходил из строя по следующим причинам:...
149 просмотров
schedule 20.11.2022