У меня есть таблица cassandra с полем типа text с именем snapshot, содержащим объекты JSON:
[identifier, timestamp, snapshot]
Я понял, что для того, чтобы иметь возможность выполнять преобразования в этом поле с помощью Spark, мне нужно преобразовать это поле этого RDD в другой RDD, чтобы выполнить преобразования в схеме JSON.
Это правильно? Как мне к этому приступить?
Изменить: на данный момент мне удалось создать RDD из одного текстового поля:
val conf = new SparkConf().setAppName("signal-aggregation")
val sc = new SparkContext(conf)
val sqlContext = new SQLContext(sc)
val snapshots = sc.cassandraTable[(String, String, String)]("listener", "snapshots")
val first = snapshots.first()
val firstJson = sqlContext.jsonRDD(sc.parallelize(Seq(first._3)))
firstJson.printSchema()
Что показывает мне схему JSON. Хороший!
Как сообщить Spark, что эта схема должна применяться ко всем строкам моментальных снимков таблицы, чтобы получить RDD для этого поля моментального снимка из каждой строки?