Вопросы по теме 'apache-spark-ml'
Пример классификации Spark Multiclass
Вы, ребята, знаете, где я могу найти примеры мультиклассовой классификации в Spark. Я потратил много времени на поиск в книгах и в Интернете, и пока я просто знаю, что это возможно, начиная с последней версии в соответствии с документацией.
13889 просмотров
schedule
20.12.2022
Как разделить предсказанные вероятности, полученные с помощью логистической регрессии ML Pileline
Я пытаюсь извлечь прогнозируемую вероятность из логистической модели, используя конвейер ML и API DataFrame. Выход предсказанных вероятностей представляет собой вектор-столбец, в котором хранятся предсказанные вероятности для каждого класса (0, 1),...
1564 просмотров
schedule
24.06.2022
Как подготовить данные для обучения в mllib
TL;DR; Как мне использовать mllib для обучения моих вики-данных (текста и категории) предсказанию твитов?
Мне трудно понять, как преобразовать мои токенизированные вики-данные, чтобы их можно было обучить с помощью NaiveBayes или...
2871 просмотров
schedule
22.07.2022
Сохранение API Spark ML Pipeline не работает
в версии 1.6 API конвейера получил новый набор функций для сохранения и загрузки этапов конвейера. Я попытался сохранить этап на диск после того, как обучил классификатор, и снова загрузить его позже, чтобы повторно использовать его и сэкономить...
679 просмотров
schedule
15.02.2023
Как использовать массив весов многослойного персептрона Spark Mlib
У меня есть требование, где мне нужно найти относительную важность атрибутов, используемых в реализации ANN. Для реализации я использую библиотеку Spark MLib MultiLayerPerceptron. Модель дает мне вектор, который представляет собой массив весов. Я...
909 просмотров
schedule
03.05.2023
Как создать собственный Transformer из UDF?
Я пытался создать и сохранить Конвейер с пользовательскими этапами. Мне нужно добавить column к моему DataFrame , используя UDF . Поэтому мне было интересно, можно ли преобразовать UDF или подобное действие в Transformer ?
Мой...
4912 просмотров
schedule
06.07.2023
Как получить вероятности, соответствующие классу, из случайного леса Spark ML
Я использую org.apache.spark.ml.Pipeline для задач машинного обучения. Особенно важно знать фактические вероятности, а не просто предсказанную метку, и у меня возникают трудности с ее получением. Здесь я выполняю задачу бинарной классификации со...
4690 просмотров
schedule
04.08.2022
Перезапись модели машинного обучения в корзине S3
Я сохраняю модель ML в корзину S3. После долгого поиска этот thread помог найти решение. Мой код выглядит следующим образом:
sc.parallelize(Seq(model), 1).saveAsObjectFile("s3a://bucket/nameModel.model")
При первом запуске этой работы...
476 просмотров
schedule
18.02.2023
Прогнозирование временных рядов в Spark и Spark Streaming
Я новичок в машинном обучении, поэтому мне нужна помощь.
У меня есть искровая потоковая работа, которая загружает данные о потреблении электроэнергии пользователем в Cassandra. Я заполняю этими данными несколько таблиц, наиболее важной из которых...
8326 просмотров
schedule
01.10.2022
Как создать собственный оценщик в PySpark
Я пытаюсь создать простой пользовательский Estimator в PySpark MLlib. У меня есть здесь , что это можно написать собственный трансформатор, но я не уверен, как это сделать на Estimator . Я также не понимаю, что делает @keyword_only и зачем...
8096 просмотров
schedule
18.08.2022
искровой конвейер KMeansModel clusterCenters
Я использую конвейер для кластеризации текстовых документов. Последним этапом конвейера является ml.clustering.KMeans, который дает мне DataFrame со столбцом кластерных прогнозов. Я также хотел бы добавить центры кластеров в виде столбца. Я...
880 просмотров
schedule
18.07.2022
Как я могу объявить столбец как категориальную функцию в DataFrame для использования в мл
Как я могу объявить, что данный столбец в моем DataFrame содержит категориальную информацию?
У меня есть Spark SQL DataFrame , который я загрузил из базы данных. Многие столбцы в этом DataFrame содержат информацию о категориях, но они...
3792 просмотров
schedule
27.05.2023
Проблемы сериализации Spark ML Word2Vec
Искра Версия: 1.6.1
Недавно я провел рефакторинг нашего кода Word2Vec, чтобы перейти к моделям мл на основе DataFrame, но у меня возникли проблемы с сериализацией и локальной загрузкой модели.
Я могу успешно:
Установите кадр данных и...
536 просмотров
schedule
12.12.2022
Сохранение наивного Байеса spark-ml в hdfs
Я знаю, что через spark-mllib мы можем сохранить наивную байесовскую модель в hdfs с помощью метода save(). Но мы пытаемся с помощью наивного байеса spark-ml сохранить в hdfs, тогда это дает ошибку. Неверная файловая система:...
147 просмотров
schedule
12.12.2023
Как разбить вектор на столбцы - с помощью PySpark
Контекст: у меня есть DataFrame с двумя столбцами: слово и вектор. Где тип столбца «вектор» - VectorUDT .
Пример:
word | vector
assert | [435,323,324,212...]
И я хочу получить вот это:
word | v1 | v2 | v3 | v4 | v5 | v6...
33246 просмотров
schedule
25.09.2022
Выберите (игнорируйте, если не существует) для журналов JSON Spark SQL
Я новичок в Apache spark и пробую несколько POC. Я пытаюсь читать журналы json, которые структурированы, но некоторые поля не всегда гарантируются, например:
{
"item": "A",
"customerId": 123,
"hasCustomerId": true,
.
.
.
},...
426 просмотров
schedule
15.11.2022
Pyspark — получить все параметры моделей, созданных с помощью ParamGridBuilder.
Я использую PySpark 2.0 для соревнований Kaggle. Я хотел бы знать поведение модели ( RandomForest ) в зависимости от разных параметров. ParamGridBuilder() позволяет указать разные значения для одного параметра, а затем выполнить (я думаю)...
7995 просмотров
schedule
14.11.2022
как работать с данными из сотен столбцов из текстового файла при обучении модели с использованием spark ml
У меня есть текстовый файл с сотнями столбцов, но столбцы не имеют имен столбцов.
Первый столбец — это метка, а остальные — функции. Я читал несколько примеров, в которых должны указываться имена столбцов для данных поезда. Но указать все имена...
54 просмотров
schedule
08.12.2023
Интеграция модели Spark ML в приложение Scala без встроенного кластера Spark
Я обучил классификатор Spark Multilayer Perceptron для обнаружения спам-сообщений и хотел бы использовать его в веб-сервисе в сочетании с Play Framework.
Мое решение (см. ниже) порождает встроенный локальный искровой кластер, загружает модель и...
428 просмотров
schedule
17.05.2023
Понимание вывода метода преобразования Word2Vec
Я пытаюсь понять вывод алгоритма word2vec Spark.
У меня есть фрейм данных текстового столбца, который я токенизирую, поэтому теперь у меня есть каждый текст в виде списка слов в столбце.
+--------------------+
| tokenised_text|...
2738 просмотров
schedule
17.07.2023