Вопросы по теме 'apache-spark-mllib'

Передача длинных значений в метод MLlib Rating()
Я пытаюсь создать рекомендательную систему, используя библиотеку Spark MLlib. (используя Scala) Чтобы иметь возможность использовать метод обучения ALS, мне нужно построить матрицу оценок, используя метод Rating() (который является частью пакета...
293 просмотров
schedule 19.12.2022

Можно ли преобразовать код Spark в Scala в Java?
У меня есть источник, который использует Apache Spark. Исходник написан на Scala, и я хочу преобразовать его в Java. Можно ли преобразовать в Java весь исходный код Scala?
1424 просмотров

странно org.apache.spark.SparkException: задание снова прервано из-за сбоя этапа
Я пытаюсь развернуть приложение spark в автономном режиме. В этом приложении я тренирую наивный байесовский классификатор с использованием векторов tf-idf. Я написал приложение аналогично этому сообщению ( реализация Spark MLLib TFIDF для...
14789 просмотров
schedule 15.08.2022

Определение важности из дерева решений Spark с помощью MLlib
Мы запускаем Spark 1.0 или 1.1 для дерева решений с использованием MLlib. Когда я запускал образец кода SCALA с образцами данных, он работал без ошибок, но я не мог определить важность функции по результату. У кого-нибудь есть такая информация о...
1102 просмотров

Интерпретация линейной регрессии MLLib o/p‏
Я использую формат LIBSVM для указания входного вектора признаков, в котором используется индекс на основе 1. Когда я запускаю регрессию, o/p основан на 0-индексе. У меня есть основной файл поиска, который сопоставляет эти индексы с тем, что они...
43 просмотров
schedule 16.08.2022

Как преобразовать org.apache.spark.rdd.RDD[Array[Double]] в Array[Double], который требуется Spark MLlib
Я пытаюсь реализовать KMeans using Apache Spark . val data = sc.textFile(irisDatasetString) val parsedData = data.map(_.split(',').map(_.toDouble)).cache() val clusters = KMeans.train(parsedData,3,numIterations = 20) на котором я получаю...
10485 просмотров
schedule 16.05.2023

Spark/MLlib: добавление квадратов функций для обучения нелинейной модели
Недавно мне нужно было подготовить лабораторный материал для студентов, чтобы они изучали машинное обучение с использованием Spark/MLlib/Scala. Я знаком с машинным обучением, но плохо знаком со Spark. Один «хрестоматийный» трюк машинного обучения...
577 просмотров
schedule 30.09.2022

Сохранить модель мллиб Apache Spark в python
Я пытаюсь сохранить подогнанную модель в файл в Spark. У меня есть кластер Spark, который обучает модель RandomForest. Я хотел бы сохранить и повторно использовать подогнанную модель на другой машине. Я прочитал несколько сообщений в Интернете, в...
6889 просмотров
schedule 17.09.2023

Как использовать алгоритм Apache Spark ALS (чередование наименьших квадратов) с ограниченными значениями рейтинга
Я пытаюсь использовать ALS, но в настоящее время мои данные ограничены информацией о том, что пользователь купил. Итак, я пытался заполнить ALS из Apache Spark с рейтингом, равным 1 (один), когда пользователь X купил элемент Y (и только такую...
1250 просмотров

Как сделать анализ текста в Spark
Я хорошо знаком с Hadoop, но совершенно не знаком с Apache Spark. В настоящее время я использую алгоритм LDA (скрытое распределение Дирихле), реализованный в Mahout, для обнаружения темы. Однако, поскольку мне нужно ускорить процесс, я бы хотел...
2688 просмотров

Spark — Prediction.io — scala.MatchError: null
Я работаю над шаблоном для prediction.io и у меня возникли проблемы со Spark. Я продолжаю получать ошибку scala.MatchError : полная суть здесь scala.MatchError: null at...
549 просмотров

Как объединить или объединить два разреженных вектора в Spark с помощью Java?
Я использовал API Java, то есть Apache-Spark 1.2.0, и создал два вектора синтаксического анализа следующим образом. Vector v1 = Vectors.sparse(3, new int[]{0, 2}, new double[]{1.0, 3.0}); Vector v2 = Vectors.sparse(2, new int[]{0, 1}, new...
1276 просмотров

Spark - ошибка значения наивного байесовского классификатора
У меня возникла следующая проблема при обучении наивного байесовского классификатора. Я получаю эту ошибку: File "/home/juande/Desktop/spark-1.3.0-bin-hadoop2.4/python/pyspark/mllib /classification.py", line 372, in train return...
786 просмотров
schedule 31.07.2023

Совместная фильтрация Spark MLlib --- как просмотреть факторы фильма?
Я работаю с этим руководством https://databricks-training.s3.amazonaws.com/movie-recommendation-with-mllib.html . Как можно рассматривать факторы, связанные с каждым фильмом? Другими словами, как мне посмотреть на обученную модель?
96 просмотров
schedule 14.06.2023

Как я могу интегрировать Apache Spark с Play Framework для отображения прогнозов в режиме реального времени?
Я провожу тестирование с Apache Spark для своего последнего проекта в колледже. У меня есть набор данных, который я использую для создания дерева решений и делаю некоторые прогнозы на основе новых данных. В дальнейшем думаю использовать этот...
4109 просмотров

Как запустить Spark локально в Windows, используя eclipse в java
Я пытаюсь протестировать реализацию SVM в Mllib. Я хочу запустить их пример Java локально в Windows, используя eclipse. Я скачал Spark 1.3.1, предварительно созданный для Hadoop 2.6. Когда я пытаюсь запустить пример кода, я получаю: 15/06/11...
4413 просмотров
schedule 07.03.2023

От DataFrame к RDD[LabeledPoint]
Я пытаюсь реализовать классификатор документов с помощью Apache Spark MLlib, и у меня возникают проблемы с представлением данных. Мой код следующий: import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.sql.types.{StringType,...
11807 просмотров
schedule 14.06.2022

как сохранить ключ или индекс ввода в функцию Spark HashingTF()?
На основе документации Spark для версии 1.4 ( https://spark.apache.org/docs/1.4.0/mllib-feature-extraction.html ) Я пишу пример TF-IDF для преобразования текстовых документов в векторы значений. В приведенном примере показано, как это можно сделать,...
1265 просмотров
schedule 20.01.2023

Как использовать дополнительные действия пользователя с для улучшения рекомендаций с помощью Spark ALS?
Есть ли способ использовать дополнительные действия пользователя, полученные из потока щелчков пользователя, для улучшения рекомендаций при использовании Spark Mllib ALS? Я рассмотрел пример, основанный на явной и неявной обратной связи, упомянутый...
1192 просмотров

Как использовать pyspark mllib RegressionMetrics с реальными прогнозами
С pyspark 1.4 я пытаюсь использовать RegressionMetrics() для прогнозов, сгенерированных LinearRegressionWithSGD. Все примеры для RegressionMetrics() приведены в pyspark mllib. документация предназначена для "искусственных" прогнозов и...
5693 просмотров