Соединитель Spark cassandra в Python

Мне нужно подключить мой автономный Spark к моему экземпляру Cassandra в python. Я загрузил искру Apache с веб-сайта Apache, распаковал и создал его следующим образом:

tar -xvf spark-1.4.1.tgz
sbt/sbt assembly

Я добавил обновленный файл ./bashrc, и я могу запустить Spark. У меня также настроена Cassandra, где я могу извлекать данные из своей программы на Python.

Как подключить Spark к экземпляру Cassandra для доступа к таблицам Cassandra в виде RDD Spark?


person SeasonalShot    schedule 12.04.2016    source источник


Ответы (1)


Интерфейс, совместимый с DataFrame, доступен через Spark Cassandra Connector https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md

Также доступен интерфейс RDD, основанный на обертке коннектора https://github.com/TargetHolding/pyspark-cassandra

В обоих случаях вы в конечном итоге добавите пакет/библиотеку в свое приложение через

--packages or --jars

и указав хост подключения Cassandra

--conf spark.cassandra.connection.host=yourhost

Кадры данных (требуется соединитель Spark Cassandra)

 sqlContext.read\
    .format("org.apache.spark.sql.cassandra")\
    .options(table="kv", keyspace="test")\
    .load().show()

RDD (требуется Pyspark-Cassandra)

sc.cassandraTable("keyspace", "table")
person RussS    schedule 12.04.2016