Статьи по тематике google-hadoop

Вопросы по теме 'google-hadoop'

Перенос данных объемом 50 ТБ из локального кластера Hadoop в Google Cloud Storage

Я пытаюсь перенести существующие данные (JSON) в своем кластере Hadoop в Google Cloud Storage. Я изучил GSUtil, и кажется, что это рекомендуемый вариант для перемещения больших наборов данных в GCS. Кажется, что он может обрабатывать огромные...

7604 просмотров

google-api google-api-java-client google-hadoop

30.01.2023

Hadoop не может подключиться к Google Cloud Storage

Я пытаюсь подключить Hadoop, работающий на виртуальной машине Google Cloud, к облачному хранилищу Google. У меня есть: Изменен core-site.xml, чтобы включить свойства fs.gs.impl и fs.AbstractFileSystem.gs.impl Загрузил файл...

3587 просмотров

google-cloud-storage google-app-engine hadoop google-hadoop

02.06.2022

Работа Spark, кажется, плохо распараллеливается

Использование Спарк 1.1 У меня есть работа, которая работает следующим образом: Читает список папок в заданном корне, распараллеливает список Для каждой папки прочитайте файлы в ней - это файлы, заархивированные gzip. Для каждого файла...

1394 просмотров

apache-spark hadoop bigdata google-hadoop

03.06.2024

Spark - слишком много открытых файлов в случайном порядке

Использование Спарк 1.1 У меня есть 2 набора данных. Один очень большой, а другой был уменьшен (с использованием фильтрации 1:100) до гораздо меньшего масштаба. Мне нужно уменьшить большой набор данных до того же масштаба, объединив только те...

5226 просмотров

apache-spark bigdata google-hadoop

02.04.2023

Ошибка при запуске Spark в экземпляре облака Google

Я запускаю отдельное приложение с использованием Apache Spark, и когда я загружаю все свои данные в RDD в виде текстового файла, я получаю следующую ошибку: 15/02/27 20:34:40 ERROR Utils: Uncaught exception in thread stdout writer for python...

806 просмотров

out-of-memory apache-spark rdd google-hadoop

25.04.2023

Сбой метода сбора SparkR с OutOfMemory в пространстве кучи Java

С помощью SparkR я пытаюсь использовать PoC для сбора RDD, который я создал из текстовых файлов, содержащих около 4 миллионов строк. Мой кластер Spark работает в Google Cloud, развернут bdutil и состоит из 1 главного и 2 рабочих с 15 ГБ ОЗУ и 4...

1811 просмотров

r apache-spark sparkr google-hadoop

29.06.2022

Как создать каталог в HDFS на Google Cloud Platform через Java API

Я запускаю кластер Hadoop на облачной платформе Google, используя облачное хранилище Google в качестве серверной части для постоянных данных. Я могу подключиться к главному узлу по ssh с удаленного компьютера и запустить команды Hadoop fs. В любом...

1321 просмотров

api hadoop google-hadoop

21.06.2022

Коннектор BigQuery для pyspark через пример входного формата Hadoop

У меня есть большой набор данных, хранящийся в таблице BigQuery, и я хотел бы загрузить его в RDD pypark для обработки данных ETL. Я понял, что BigQuery поддерживает формат ввода-вывода Hadoop....

1552 просмотров

google-bigquery google-cloud-dataproc apache-spark pyspark google-hadoop

01.11.2022

Никогда не строил большой кластер hadoop&spark.

Мне было интересно, может ли кто-нибудь помочь мне с этой проблемой при развертывании искрового кластера с помощью инструмента bdutil. При увеличении общего количества ядер (>= 1024) он все время выходил из строя по следующим причинам:...

149 просмотров

google-hadoop

20.11.2022

Вопросы по теме 'google-hadoop'

Похожие вопросы