Пока я использую Spark DataSet для загрузки CSV-файла. Я предпочитаю четкое обозначение схемы. Но я обнаружил, что есть несколько строк, не соответствующих моей схеме. Столбец должен быть двойным, но некоторые строки не являются числовыми значениями. Можно ли легко отфильтровать все строки, не соответствующие моей схеме, из DataSet?
val schema = StructType(StructField("col", DataTypes.DoubleType) :: Nil)
val ds = spark.read.format("csv").option("delimiter", "\t").schema(schema).load("f.csv")
ф.csv:
a
1.0
Я предпочитаю, чтобы «а» можно было легко отфильтровать из моего набора данных. Спасибо!