Ошибка импорта для модуля Datastax Spark Cassandra Connector

Я попытался запустить искровую оболочку Python, используя следующую команду:

 bin/pyspark --packages datastax:spark-cassandra-connector:1.5.0-RC1-s_2.11,org.apache.spark:spark-streaming-kafka_2.10:1.6.0

Вывод следующей команды показывает, что она смогла найти пакет spark-cassandra-connector:

resolving dependencies :: org.apache.spark#spark-submit-parent;1.0
   confs: [default]
   found datastax#spark-cassandra-connector;1.5.0-RC1-s_2.11 in spark-packages
   found org.apache.cassandra#cassandra-clientutil;2.2.2 in central
   found com.datastax.cassandra#cassandra-driver-core;3.0.0-rc1 in central
   found io.netty#netty-handler;4.0.33.Final in central
   found io.netty#netty-buffer;4.0.33.Final in central
   found io.netty#netty-common;4.0.33.Final in central

Но когда я пытаюсь импортировать пакет с помощью любой из приведенных ниже команд, я получаю сообщение об ошибке импорта:

from com.datastax import *
from com.datastax.spark.connector import *

Выход:

ImportError: No module named com.datastax
ImportError: No module named com.datastax.spark.connector

Может ли кто-нибудь предложить, что здесь происходит не так?


person Shubham Kankaria    schedule 14.02.2016    source источник
comment
привет, как ты решил эту проблему? пожалуйста, скажи мне   -  person Beyhan Gul    schedule 14.12.2016


Ответы (1)


Насколько я знаю, Cassandra Connector не содержит ни одной строки кода Python, не говоря уже о модулях Python со странными именами. Совместимость с Python достигается с помощью API источников данных, который можно использовать без дополнительного импорта.

sqlContext.read.format("org.apache.spark.sql.cassandra").options(...).load(...)

Даже если бы это было так, --packages используются только для распространения зависимостей JVM. Внешние зависимости (Python, R) должны распространяться или устанавливаться зависимо, например, с помощью PyFiles.

person zero323    schedule 14.02.2016