Вопросы по теме 'apache-spark-ml'

Пример классификации Spark Multiclass
Вы, ребята, знаете, где я могу найти примеры мультиклассовой классификации в Spark. Я потратил много времени на поиск в книгах и в Интернете, и пока я просто знаю, что это возможно, начиная с последней версии в соответствии с документацией.
13889 просмотров

Как разделить предсказанные вероятности, полученные с помощью логистической регрессии ML Pileline
Я пытаюсь извлечь прогнозируемую вероятность из логистической модели, используя конвейер ML и API DataFrame. Выход предсказанных вероятностей представляет собой вектор-столбец, в котором хранятся предсказанные вероятности для каждого класса (0, 1),...
1564 просмотров
schedule 24.06.2022

Как подготовить данные для обучения в mllib
TL;DR; Как мне использовать mllib для обучения моих вики-данных (текста и категории) предсказанию твитов? Мне трудно понять, как преобразовать мои токенизированные вики-данные, чтобы их можно было обучить с помощью NaiveBayes или...
2871 просмотров

Сохранение API Spark ML Pipeline не работает
в версии 1.6 API конвейера получил новый набор функций для сохранения и загрузки этапов конвейера. Я попытался сохранить этап на диск после того, как обучил классификатор, и снова загрузить его позже, чтобы повторно использовать его и сэкономить...
679 просмотров
schedule 15.02.2023

Как использовать массив весов многослойного персептрона Spark Mlib
У меня есть требование, где мне нужно найти относительную важность атрибутов, используемых в реализации ANN. Для реализации я использую библиотеку Spark MLib MultiLayerPerceptron. Модель дает мне вектор, который представляет собой массив весов. Я...
909 просмотров
schedule 03.05.2023

Как создать собственный Transformer из UDF?
Я пытался создать и сохранить Конвейер с пользовательскими этапами. Мне нужно добавить column к моему DataFrame , используя UDF . Поэтому мне было интересно, можно ли преобразовать UDF или подобное действие в Transformer ? Мой...
4912 просмотров

Как получить вероятности, соответствующие классу, из случайного леса Spark ML
Я использую org.apache.spark.ml.Pipeline для задач машинного обучения. Особенно важно знать фактические вероятности, а не просто предсказанную метку, и у меня возникают трудности с ее получением. Здесь я выполняю задачу бинарной классификации со...
4690 просмотров
schedule 04.08.2022

Перезапись модели машинного обучения в корзине S3
Я сохраняю модель ML в корзину S3. После долгого поиска этот thread помог найти решение. Мой код выглядит следующим образом: sc.parallelize(Seq(model), 1).saveAsObjectFile("s3a://bucket/nameModel.model") При первом запуске этой работы...
476 просмотров

Прогнозирование временных рядов в Spark и Spark Streaming
Я новичок в машинном обучении, поэтому мне нужна помощь. У меня есть искровая потоковая работа, которая загружает данные о потреблении электроэнергии пользователем в Cassandra. Я заполняю этими данными несколько таблиц, наиболее важной из которых...
8326 просмотров

Как создать собственный оценщик в PySpark
Я пытаюсь создать простой пользовательский Estimator в PySpark MLlib. У меня есть здесь , что это можно написать собственный трансформатор, но я не уверен, как это сделать на Estimator . Я также не понимаю, что делает @keyword_only и зачем...
8096 просмотров

искровой конвейер KMeansModel clusterCenters
Я использую конвейер для кластеризации текстовых документов. Последним этапом конвейера является ml.clustering.KMeans, который дает мне DataFrame со столбцом кластерных прогнозов. Я также хотел бы добавить центры кластеров в виде столбца. Я...
880 просмотров
schedule 18.07.2022

Как я могу объявить столбец как категориальную функцию в DataFrame для использования в мл
Как я могу объявить, что данный столбец в моем DataFrame содержит категориальную информацию? У меня есть Spark SQL DataFrame , который я загрузил из базы данных. Многие столбцы в этом DataFrame содержат информацию о категориях, но они...
3792 просмотров

Проблемы сериализации Spark ML Word2Vec
Искра Версия: 1.6.1 Недавно я провел рефакторинг нашего кода Word2Vec, чтобы перейти к моделям мл на основе DataFrame, но у меня возникли проблемы с сериализацией и локальной загрузкой модели. Я могу успешно: Установите кадр данных и...
536 просмотров

Сохранение наивного Байеса spark-ml в hdfs
Я знаю, что через spark-mllib мы можем сохранить наивную байесовскую модель в hdfs с помощью метода save(). Но мы пытаемся с помощью наивного байеса spark-ml сохранить в hdfs, тогда это дает ошибку. Неверная файловая система:...
147 просмотров

Как разбить вектор на столбцы - с помощью PySpark
Контекст: у меня есть DataFrame с двумя столбцами: слово и вектор. Где тип столбца «вектор» - VectorUDT . Пример: word | vector assert | [435,323,324,212...] И я хочу получить вот это: word | v1 | v2 | v3 | v4 | v5 | v6...
33246 просмотров

Выберите (игнорируйте, если не существует) для журналов JSON Spark SQL
Я новичок в Apache spark и пробую несколько POC. Я пытаюсь читать журналы json, которые структурированы, но некоторые поля не всегда гарантируются, например: { "item": "A", "customerId": 123, "hasCustomerId": true, . . . },...
426 просмотров

Pyspark — получить все параметры моделей, созданных с помощью ParamGridBuilder.
Я использую PySpark 2.0 для соревнований Kaggle. Я хотел бы знать поведение модели ( RandomForest ) в зависимости от разных параметров. ParamGridBuilder() позволяет указать разные значения для одного параметра, а затем выполнить (я думаю)...
7995 просмотров

как работать с данными из сотен столбцов из текстового файла при обучении модели с использованием spark ml
У меня есть текстовый файл с сотнями столбцов, но столбцы не имеют имен столбцов. Первый столбец — это метка, а остальные — функции. Я читал несколько примеров, в которых должны указываться имена столбцов для данных поезда. Но указать все имена...
54 просмотров

Интеграция модели Spark ML в приложение Scala без встроенного кластера Spark
Я обучил классификатор Spark Multilayer Perceptron для обнаружения спам-сообщений и хотел бы использовать его в веб-сервисе в сочетании с Play Framework. Мое решение (см. ниже) порождает встроенный локальный искровой кластер, загружает модель и...
428 просмотров
schedule 17.05.2023

Понимание вывода метода преобразования Word2Vec
Я пытаюсь понять вывод алгоритма word2vec Spark. У меня есть фрейм данных текстового столбца, который я токенизирую, поэтому теперь у меня есть каждый текст в виде списка слов в столбце. +--------------------+ | tokenised_text|...
2738 просмотров