Проблема с потоковой передачей Spark Kafka

Я использую maven

я добавил следующие зависимости

   <dependency> <!-- Spark dependency -->
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-streaming_2.10</artifactId>
      <version>1.1.0</version>
    </dependency>   <dependency> <!-- Spark dependency -->
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-streaming-kafka_2.10</artifactId>
      <version>1.1.0</version>
    </dependency>

Я также добавил банку в код

SparkConf sparkConf = new SparkConf().setAppName("KafkaSparkTest");
JavaSparkContext sc = new JavaSparkContext(sparkConf);
sc.addJar("/home/test/.m2/repository/org/apache/spark/spark-streaming-kafka_2.10/1.0.2/spark-streaming-kafka_2.10-1.0.2.jar");
JavaStreamingContext jssc = new JavaStreamingContext(sc, new Duration(5000)); 

Он отлично работает без каких-либо ошибок, я получаю следующую ошибку, когда запускаю spark-submit, любая помощь очень приветствуется. Спасибо за ваше время.

bin/spark-submit --class "KafkaSparkStreaming" --master local[4] try/simple-project/target/simple-project-1.0.jar

Исключение в потоке «main» java.lang.NoClassDefFoundError: org / apache / spark / streaming / kafka / KafkaUtils в KafkaSparkStreaming.sparkStreamingTest (KafkaSparkStreaming.java:40) в KafkaSparkStreaming.mainark: NativeMethodAccessorImpl.invoke0 (собственный метод) в sun.reflect.NativeMethodAccessorImpl.invoke (NativeMethodAccessorImpl.java:57) в sun.reflect.DelegatingMethodAccessorImpl.invoke (DelegatingMethod.java.MethodAccessorImpl.invoke (DelegatingMethod.java.Invoke.Invoke (DelegatingMethod.java. java: 606) в org.apache.spark.deploy.SparkSubmit $ .launch (SparkSubmit.scala: 303) в org.apache.spark.deploy.SparkSubmit $ .main (SparkSubmit.scala: 55) в org.apache.spark .deploy.SparkSubmit.main (SparkSubmit.scala) Вызвано: java.lang.ClassNotFoundException: org.apache.spark.streaming.kafka.KafkaUtils в java.net.URLClassLoader $ 1.run (URLClassLoader.java:366)


person mithra    schedule 18.09.2014    source источник
comment
Ваш метод addJar не нужен. Однако вы должны добавить плагин сборки maven и пакет в .jar с включенными зависимостями (не найти зависимости spark-kafka).   -  person gasparms    schedule 20.09.2014
comment
Я добавил spark-streaming-kafka_2.10 в список зависимостей в pom   -  person mithra    schedule 22.09.2014
comment
спасибо добавление плагина сборки maven помогло ..   -  person mithra    schedule 22.09.2014


Ответы (2)


У меня та же проблема, я решил ее, построив банку с зависимостями.

  1. удалите "sc.addJar ()" в своем коде.

  2. добавьте приведенный ниже код в pom.xml

    <build>
        <sourceDirectory>src/main/java</sourceDirectory>
        <testSourceDirectory>src/test/java</testSourceDirectory>
        <plugins>
          <!--
                       Bind the maven-assembly-plugin to the package phase
            this will create a jar file without the storm dependencies
            suitable for deployment to a cluster.
           -->
          <plugin>
            <artifactId>maven-assembly-plugin</artifactId>
            <configuration>
              <descriptorRefs>
                <descriptorRef>jar-with-dependencies</descriptorRef>
              </descriptorRefs>
              <archive>
                <manifest>
                  <mainClass></mainClass>
                </manifest>
              </archive>
            </configuration>
            <executions>
              <execution>
                <id>make-assembly</id>
                <phase>package</phase>
                <goals>
                  <goal>single</goal>
                </goals>
              </execution>
            </executions>
          </plugin>
        </plugins>
    </build>    
    
  3. пакет mvn

  4. отправьте "example-jar-with-dependencies.jar"

person secfree    schedule 21.10.2014
comment
Я добавил приведенные выше строки в pom.xml, но проблема все еще остается. - person Shrinivas Kulkarni; 01.10.2015

Для справки в будущем: если вы получите исключение ClassNotFoundException, если вы выполните поиск по запросу «org.apache.spark ...», вы попадете на страницу maven, где сообщит вам зависимость, отсутствующую в вашем файле pom. Он также даст вам код для добавления в ваш pom-файл.

person SparkKafkaSetup    schedule 08.01.2015