Вопросы по теме 'mahout'

Рекомендации Mahout по двоичным данным
Я новичок в mahout. Моя цель - дать рекомендации по бинарным данным, приобретенным пользователями. Поэтому я применил модель сходства элементов для вычисления лучших N рекомендаций для данных кинообъектива, принимая оценки 1-3 как оценки 0 и 4-5. как...
943 просмотров
schedule 27.04.2023

Наборы данных для Apache Mahout
Я ищу наборы данных, которые можно использовать для реализации варианта использования системы рекомендаций Apache Mahout. Мне известны только наборы данных MovieLens из группа GroupLens Research . Кто-нибудь знает какие-либо другие наборы...
2611 просмотров
schedule 15.01.2024

Использование mahout и hadoop
Я новичок, пытаясь понять, как mahout и hadoop будут использоваться для совместной фильтрации. У меня есть установка Cassandra с одним узлом. Я хочу получить данные от cassandra Где я могу найти четкие шаги по установке сначала для Hadoop, а...
9530 просмотров
schedule 08.04.2022

Обработка XML в Hadoop
У меня есть почти 200+ xml-файлов в hdfs. Я использую XmlInputFormat (из mahout) для потоковой передачи элементов. Mapper может получить содержимое xml и обработать его. Но проблема в том, что обрабатывается только первый XML-файл. Но когда мы...
448 просмотров
schedule 09.03.2023

У Mahout закончилось место в куче
Я использую NaiveBayes для набора твитов, используя Mahout. Два файла, один 100 МБ и один 300 МБ. Я изменил JAVA_HEAP_MAX на JAVA_HEAP_MAX=-Xmx2000m (ранее было 1000). Но даже тогда mahout работал в течение нескольких часов (2, если быть точным),...
5455 просмотров
schedule 07.05.2022

Векторизация документов с помощью Apache Mahout — параметр MinLLR
Я работаю с Apache Mahout для векторизации и кластеризации набора документов приличного размера (~ 500 тыс.). Работая с примерами как на веб-сайте проекта, так и в книге Mahout in Action, я видел, как параметр minLLR в seq2sparse использовался...
261 просмотров
schedule 26.05.2022

Mahout: чтение пользовательского входного файла
Я играл с Mahout и обнаружил, что FileDataModel принимает данные в формате userId,itemId,pref(long,long,Double). У меня есть некоторые данные в формате String,long,double Каков наилучший/самый простой способ работы с этим...
3590 просмотров
schedule 28.01.2023

Mahout LDA выдает исключение FileNotFound
Я создал свои векторы терминов, как указано здесь , вот так: ~/Scripts/Mahout/trunk/bin/mahout seqdirectory --input /home/ben/Scripts/eipi/files --output /home/ben/Scripts/eipi/mahout_out -chunk 1 ~/Scripts/Mahout/trunk/bin/mahout seq2sparse -i...
708 просмотров
schedule 23.07.2022

Полное использование всех ядер в псевдораспределенном режиме Hadoop
Я выполняю задачу в псевдораспределенном режиме на своем 4-ядерном ноутбуке. Как я могу убедиться, что все ядра используются эффективно. В настоящее время мой счетчик вакансий показывает, что одновременно выполняется только одно задание. Означает...
2709 просмотров
schedule 26.03.2022

используя механизм рекомендации вкуса mahout, как рекомендовать gor новый идентификатор пользователя, который только что введен в таблицу предпочтений mysqljdbcdatamodel?
Я использую библиотеку вкусов mahout для создания механизма рекомендаций, я вручную сохранил идентификатор пользователя и рейтинг в таблице предпочтений, которая является моделью данных для двигателя, теперь, когда приходит новый пользователь, я ввожу...
395 просмотров
schedule 26.04.2022

Приложения с открытым исходным кодом, использующие алгоритмы apache mahout
Я работаю над проектом, используя Hadoop. Теперь я хочу протестировать приложение, интенсивно использующее данные, на основе Hadoop. Я проверил алгоритмы машинного обучения apache mahout. Существуют ли какие-либо приложения с открытым исходным кодом,...
679 просмотров
schedule 22.10.2022

Получение IOException при запуске примера кода в «Mahout в действии» на mahout-0.6
Я изучаю Mahout и читаю "Mahout в действии". Когда я попытался запустить пример кода из главы 7 SimpleKMeansClustering.java, появилось исключение: Исключение в потоке «основной» java.io.IOException: неверный класс значений: 0.0: null не является...
2543 просмотров
schedule 15.07.2022

Полнотекстовый персонализированный поиск с помощью Mahout
У меня есть база данных статей, которые будут проиндексированы Lucene, классифицированы по тегам пользователей и махаутам. Статьи будут иметь определенный балл для тегирования (пользователь может согласиться или не согласиться с тегом, теги,...
379 просмотров
schedule 28.12.2022

Наивный байесовский классификатор Mahout для товаров
Команда, Я работаю над проектом, в котором мне нужно классифицировать предметы по определенной категории. У меня есть один файл в качестве входных данных; который содержит целевую переменную и функции, разделенные пробелами . Мои...
592 просмотров

Неправильный вывод алгоритма mahout PFPGrowth?
Я использую последнюю транковую версию реализации mahout PFP Growth поверх кластера hadoop, чтобы определить частые закономерности в наборе данных movielens. На предыдущем шаге я преобразовал набор данных в список транзакций, так как алгоритм роста...
620 просмотров
schedule 31.05.2022

Mahout — Кластеризация — присвоение имен элементам кластера
Я провожу некоторые исследования и играю с Apache Mahout 0.6. Моя цель — создать систему, которая будет называть различные категории документов на основе пользовательского ввода. Документы заранее неизвестны, и я не знаю также, какие у меня...
475 просмотров
schedule 10.06.2023

есть ли опция seqFileDir для clusterdump в последней библиотеке apache mahout?
Я пытаюсь сделать «clusterdump» на выходе примера кластеризации mahout kmeans (пример synthetic_control). Но я испытываю следующую ошибку: > ~/MAHOUT/trunk/bin/mahout clusterdump --seqFileDir clusters-10-final --pointsDir clusteredPoints...
2059 просмотров

Уникальные идентификаторы для каждой точки данных в Mahout
Предположим, у меня есть набор данных, на котором я хочу запустить задание кластеризации Mahout. Я хочу, чтобы каждая точка данных имела уникальный идентификатор, например идентификационный номер. Я не хочу добавлять идентификатор к вектору, так как...
75 просмотров
schedule 10.01.2023

Классификация предметов более чем в одной категории
Я разрабатываю систему классификации новостей, в которой конкретная новость присваивается названию организации или компании. Например, новость с пометкой «Apple выпустит новый iPhone в сентябре 2012 года» попадает в категорию новостей «Apple». До...
680 просмотров
schedule 20.03.2022

Рекомендации Mahout с метаданными, связанными с предпочтениями
Я планировал написать рекомендатель, который по-разному обрабатывает предпочтения в зависимости от контекстной информации (время, когда предпочтение было сделано, устройство, используемое для рекомендации, ...) В книге Mahout in Action и в примерах...
212 просмотров
schedule 12.11.2023