Вопросы по теме 'spark-csv'

Пользовательская схема в spark-csv выдает ошибку в spark 1.4.1
Я пытаюсь обработать файл CSV, используя пакет spark -csv в spark-shell в spark 1.4.1. scala> import org.apache.spark.sql.hive.HiveContext import...
454 просмотров
schedule 29.06.2022

Ошибка с spark-csv в кластере Amazon EMR
Я пытаюсь запустить кластер EMR с простым выполнением шага Spark и обнаружил ошибку, которую не могу устранить. Программа работает, когда я запускаю ее локально в Eclipse, но не когда я запускаю ее в кластере EMR. Программа просто пытается...
381 просмотров
schedule 18.06.2022

Добавление пользовательского разделителя добавляет двойные кавычки в окончательный фрейм данных искры в формате CSV.
У меня есть фрейм данных, в котором я заменяю разделитель по умолчанию , на |^| . он работает нормально, и я также получаю ожидаемый результат, за исключением случаев, когда в записях встречается , . Например, у меня есть одна такая запись, как...
1968 просмотров
schedule 18.06.2022

Как записать данные в виде одного (обычного) CSV-файла в Spark?
Я пытаюсь сохранить фрейм данных в виде CSV-файла на локальном диске. Но когда я это делаю, я получаю сгенерированную папку, и в этом разделе были записаны файлы. Есть ли какие-либо предложения по преодолению этого? Мое требование: получить...
2573 просмотров
schedule 05.06.2022

Spark сохранить как CSV, не игнорируя пробелы
Я пытаюсь сохранить Dataframe в виде файла CSV, я хочу сохранить пробелы. Я использую Spark 2.1.1, но когда я пытаюсь сохранить его как файл CSV, все пробелы обрезаются. Я пробовал эти варианты, но они не сработали....
643 просмотров

Добавить UUID в набор данных Spark
Я пытаюсь добавить столбец UUID в свой набор данных. getDataset(Transaction.class)).withColumn("uniqueId", functions.lit(UUID.randomUUID().toString())).show(false); Но в результате все строки имеют одинаковый UUID. Как я могу сделать его...
13755 просмотров

Spark не может прочитать CSV, когда имя последнего столбца содержит пробелы
У меня есть CSV, который выглядит так: +-----------------+-----------------+-----------------+ | Column One | Column Two | Column Three | +-----------------+-----------------+-----------------+ | This is a value | This is a value |...
3407 просмотров

Как обрабатывать файл CSV, в котором данные столбца адреса разделены запятой как один столбец вместо нескольких столбцов в Spark
Если у меня есть входящие данные для поля адреса в файле CSV, разделенные запятой (','), как я могу обработать это в Spark? Если я хочу, чтобы эти данные были записаны в мой адресный столбец. Пример. Предположим, у меня есть входные данные в виде...
142 просмотров