Вопросы по теме 'spark-csv'
Пользовательская схема в spark-csv выдает ошибку в spark 1.4.1
Я пытаюсь обработать файл CSV, используя пакет spark -csv в spark-shell в spark 1.4.1.
scala> import org.apache.spark.sql.hive.HiveContext
import...
454 просмотров
schedule
29.06.2022
Ошибка с spark-csv в кластере Amazon EMR
Я пытаюсь запустить кластер EMR с простым выполнением шага Spark и обнаружил ошибку, которую не могу устранить. Программа работает, когда я запускаю ее локально в Eclipse, но не когда я запускаю ее в кластере EMR. Программа просто пытается...
381 просмотров
schedule
18.06.2022
Добавление пользовательского разделителя добавляет двойные кавычки в окончательный фрейм данных искры в формате CSV.
У меня есть фрейм данных, в котором я заменяю разделитель по умолчанию , на |^| . он работает нормально, и я также получаю ожидаемый результат, за исключением случаев, когда в записях встречается , . Например, у меня есть одна такая запись, как...
1968 просмотров
schedule
18.06.2022
Как записать данные в виде одного (обычного) CSV-файла в Spark?
Я пытаюсь сохранить фрейм данных в виде CSV-файла на локальном диске. Но когда я это делаю, я получаю сгенерированную папку, и в этом разделе были записаны файлы. Есть ли какие-либо предложения по преодолению этого?
Мое требование: получить...
2573 просмотров
schedule
05.06.2022
Spark сохранить как CSV, не игнорируя пробелы
Я пытаюсь сохранить Dataframe в виде файла CSV, я хочу сохранить пробелы. Я использую Spark 2.1.1, но когда я пытаюсь сохранить его как файл CSV, все пробелы обрезаются.
Я пробовал эти варианты, но они не сработали....
643 просмотров
schedule
14.11.2023
Добавить UUID в набор данных Spark
Я пытаюсь добавить столбец UUID в свой набор данных.
getDataset(Transaction.class)).withColumn("uniqueId", functions.lit(UUID.randomUUID().toString())).show(false);
Но в результате все строки имеют одинаковый UUID. Как я могу сделать его...
13755 просмотров
schedule
24.06.2022
Spark не может прочитать CSV, когда имя последнего столбца содержит пробелы
У меня есть CSV, который выглядит так:
+-----------------+-----------------+-----------------+
| Column One | Column Two | Column Three |
+-----------------+-----------------+-----------------+
| This is a value | This is a value |...
3407 просмотров
schedule
19.12.2022
Как обрабатывать файл CSV, в котором данные столбца адреса разделены запятой как один столбец вместо нескольких столбцов в Spark
Если у меня есть входящие данные для поля адреса в файле CSV, разделенные запятой (','), как я могу обработать это в Spark? Если я хочу, чтобы эти данные были записаны в мой адресный столбец.
Пример. Предположим, у меня есть входные данные в виде...
142 просмотров
schedule
25.02.2023