У меня есть данные, которые выглядят так,
1,IN,abc
2,US,pqr
3,UK,rst
4,IN,xyz
5,US,lmn
Я создаю фрейм данных по этим данным, используя spark-2.4.5 (scala)
val df = spark.read.format("csv").option("header","false").load("file:///home/hduser/Desktop/demo.csv").toDF("id","country","name")
Теперь, когда я записываю данные в виде файла паркета, используя следующий код,
df.write.partitionBy("country").parquet("/ex_1/spark_parquet")
Вывод выглядит так,
+---+----+-------+
| id|name|country|
+---+----+-------+
| 3| rst| UK|
| 1| abc| IN|
| 4| xyz| IN|
| 2| pqr| US|
| 5| lmn| US|
+---+----+-------+
В настоящее время разделенный столбец находится в последнем месте, есть ли способ, с помощью которого я могу добиться следующего вывода (с разделением на столбец страны)
Вывод должен быть в формате Parquet
+-------+----+---+
|country|name| id|
+-------+----+---+
| UK| rst| 3|
| IN| abc| 1|
| IN| xyz| 4|
| US| pqr| 2|
| US| lmn| 5|
+-------+----+---+