Вопросы по теме 'google-hadoop'
Перенос данных объемом 50 ТБ из локального кластера Hadoop в Google Cloud Storage
Я пытаюсь перенести существующие данные (JSON) в своем кластере Hadoop в Google Cloud Storage.
Я изучил GSUtil, и кажется, что это рекомендуемый вариант для перемещения больших наборов данных в GCS. Кажется, что он может обрабатывать огромные...
7604 просмотров
schedule
30.01.2023
Hadoop не может подключиться к Google Cloud Storage
Я пытаюсь подключить Hadoop, работающий на виртуальной машине Google Cloud, к облачному хранилищу Google. У меня есть:
Изменен core-site.xml, чтобы включить свойства fs.gs.impl и fs.AbstractFileSystem.gs.impl
Загрузил файл...
3587 просмотров
schedule
02.06.2022
Работа Spark, кажется, плохо распараллеливается
Использование Спарк 1.1
У меня есть работа, которая работает следующим образом:
Читает список папок в заданном корне, распараллеливает список
Для каждой папки прочитайте файлы в ней - это файлы, заархивированные gzip.
Для каждого файла...
1394 просмотров
schedule
03.06.2024
Spark - слишком много открытых файлов в случайном порядке
Использование Спарк 1.1
У меня есть 2 набора данных. Один очень большой, а другой был уменьшен (с использованием фильтрации 1:100) до гораздо меньшего масштаба. Мне нужно уменьшить большой набор данных до того же масштаба, объединив только те...
5226 просмотров
schedule
02.04.2023
Ошибка при запуске Spark в экземпляре облака Google
Я запускаю отдельное приложение с использованием Apache Spark, и когда я загружаю все свои данные в RDD в виде текстового файла, я получаю следующую ошибку:
15/02/27 20:34:40 ERROR Utils: Uncaught exception in thread stdout writer for python...
806 просмотров
schedule
25.04.2023
Сбой метода сбора SparkR с OutOfMemory в пространстве кучи Java
С помощью SparkR я пытаюсь использовать PoC для сбора RDD, который я создал из текстовых файлов, содержащих около 4 миллионов строк.
Мой кластер Spark работает в Google Cloud, развернут bdutil и состоит из 1 главного и 2 рабочих с 15 ГБ ОЗУ и 4...
1811 просмотров
schedule
29.06.2022
Как создать каталог в HDFS на Google Cloud Platform через Java API
Я запускаю кластер Hadoop на облачной платформе Google, используя облачное хранилище Google в качестве серверной части для постоянных данных. Я могу подключиться к главному узлу по ssh с удаленного компьютера и запустить команды Hadoop fs. В любом...
1321 просмотров
schedule
21.06.2022
Коннектор BigQuery для pyspark через пример входного формата Hadoop
У меня есть большой набор данных, хранящийся в таблице BigQuery, и я хотел бы загрузить его в RDD pypark для обработки данных ETL.
Я понял, что BigQuery поддерживает формат ввода-вывода Hadoop....
1552 просмотров
schedule
01.11.2022
Никогда не строил большой кластер hadoop&spark.
Мне было интересно, может ли кто-нибудь помочь мне с этой проблемой при развертывании искрового кластера с помощью инструмента bdutil. При увеличении общего количества ядер (>= 1024) он все время выходил из строя по следующим причинам:...
149 просмотров
schedule
20.11.2022