Вопросы по теме 'mahout'
Рекомендации Mahout по двоичным данным
Я новичок в mahout. Моя цель - дать рекомендации по бинарным данным, приобретенным пользователями. Поэтому я применил модель сходства элементов для вычисления лучших N рекомендаций для данных кинообъектива, принимая оценки 1-3 как оценки 0 и 4-5. как...
943 просмотров
schedule
27.04.2023
Наборы данных для Apache Mahout
Я ищу наборы данных, которые можно использовать для реализации варианта использования системы рекомендаций Apache Mahout. Мне известны только наборы данных MovieLens из группа GroupLens Research .
Кто-нибудь знает какие-либо другие наборы...
2611 просмотров
schedule
15.01.2024
Использование mahout и hadoop
Я новичок, пытаясь понять, как mahout и hadoop будут использоваться для совместной фильтрации. У меня есть установка Cassandra с одним узлом. Я хочу получить данные от cassandra
Где я могу найти четкие шаги по установке сначала для Hadoop, а...
9530 просмотров
schedule
08.04.2022
Обработка XML в Hadoop
У меня есть почти 200+ xml-файлов в hdfs. Я использую XmlInputFormat (из mahout) для потоковой передачи элементов. Mapper может получить содержимое xml и обработать его. Но проблема в том, что обрабатывается только первый XML-файл. Но когда мы...
448 просмотров
schedule
09.03.2023
У Mahout закончилось место в куче
Я использую NaiveBayes для набора твитов, используя Mahout. Два файла, один 100 МБ и один 300 МБ. Я изменил JAVA_HEAP_MAX на JAVA_HEAP_MAX=-Xmx2000m (ранее было 1000). Но даже тогда mahout работал в течение нескольких часов (2, если быть точным),...
5455 просмотров
schedule
07.05.2022
Векторизация документов с помощью Apache Mahout — параметр MinLLR
Я работаю с Apache Mahout для векторизации и кластеризации набора документов приличного размера (~ 500 тыс.). Работая с примерами как на веб-сайте проекта, так и в книге Mahout in Action, я видел, как параметр minLLR в seq2sparse использовался...
261 просмотров
schedule
26.05.2022
Mahout: чтение пользовательского входного файла
Я играл с Mahout и обнаружил, что FileDataModel принимает данные в формате
userId,itemId,pref(long,long,Double).
У меня есть некоторые данные в формате
String,long,double
Каков наилучший/самый простой способ работы с этим...
3590 просмотров
schedule
28.01.2023
Mahout LDA выдает исключение FileNotFound
Я создал свои векторы терминов, как указано здесь , вот так:
~/Scripts/Mahout/trunk/bin/mahout seqdirectory --input /home/ben/Scripts/eipi/files --output /home/ben/Scripts/eipi/mahout_out -chunk 1
~/Scripts/Mahout/trunk/bin/mahout seq2sparse -i...
708 просмотров
schedule
23.07.2022
Полное использование всех ядер в псевдораспределенном режиме Hadoop
Я выполняю задачу в псевдораспределенном режиме на своем 4-ядерном ноутбуке. Как я могу убедиться, что все ядра используются эффективно. В настоящее время мой счетчик вакансий показывает, что одновременно выполняется только одно задание. Означает...
2709 просмотров
schedule
26.03.2022
используя механизм рекомендации вкуса mahout, как рекомендовать gor новый идентификатор пользователя, который только что введен в таблицу предпочтений mysqljdbcdatamodel?
Я использую библиотеку вкусов mahout для создания механизма рекомендаций, я вручную сохранил идентификатор пользователя и рейтинг в таблице предпочтений, которая является моделью данных для двигателя, теперь, когда приходит новый пользователь, я ввожу...
395 просмотров
schedule
26.04.2022
Приложения с открытым исходным кодом, использующие алгоритмы apache mahout
Я работаю над проектом, используя Hadoop. Теперь я хочу протестировать приложение, интенсивно использующее данные, на основе Hadoop. Я проверил алгоритмы машинного обучения apache mahout. Существуют ли какие-либо приложения с открытым исходным кодом,...
679 просмотров
schedule
22.10.2022
Получение IOException при запуске примера кода в «Mahout в действии» на mahout-0.6
Я изучаю Mahout и читаю "Mahout в действии".
Когда я попытался запустить пример кода из главы 7 SimpleKMeansClustering.java, появилось исключение:
Исключение в потоке «основной» java.io.IOException: неверный класс значений: 0.0: null не является...
2543 просмотров
schedule
15.07.2022
Полнотекстовый персонализированный поиск с помощью Mahout
У меня есть база данных статей, которые будут проиндексированы Lucene, классифицированы по тегам пользователей и махаутам. Статьи будут иметь определенный балл для тегирования (пользователь может согласиться или не согласиться с тегом, теги,...
379 просмотров
schedule
28.12.2022
Наивный байесовский классификатор Mahout для товаров
Команда,
Я работаю над проектом, в котором мне нужно классифицировать предметы по определенной категории. У меня есть один файл в качестве входных данных; который содержит целевую переменную и функции, разделенные пробелами . Мои...
592 просмотров
schedule
12.03.2023
Неправильный вывод алгоритма mahout PFPGrowth?
Я использую последнюю транковую версию реализации mahout PFP Growth поверх кластера hadoop, чтобы определить частые закономерности в наборе данных movielens. На предыдущем шаге я преобразовал набор данных в список транзакций, так как алгоритм роста...
620 просмотров
schedule
31.05.2022
Mahout — Кластеризация — присвоение имен элементам кластера
Я провожу некоторые исследования и играю с Apache Mahout 0.6.
Моя цель — создать систему, которая будет называть различные категории документов на основе пользовательского ввода. Документы заранее неизвестны, и я не знаю также, какие у меня...
475 просмотров
schedule
10.06.2023
есть ли опция seqFileDir для clusterdump в последней библиотеке apache mahout?
Я пытаюсь сделать «clusterdump» на выходе примера кластеризации mahout kmeans (пример synthetic_control). Но я испытываю следующую ошибку:
> ~/MAHOUT/trunk/bin/mahout clusterdump --seqFileDir clusters-10-final --pointsDir clusteredPoints...
2059 просмотров
schedule
22.07.2023
Уникальные идентификаторы для каждой точки данных в Mahout
Предположим, у меня есть набор данных, на котором я хочу запустить задание кластеризации Mahout. Я хочу, чтобы каждая точка данных имела уникальный идентификатор, например идентификационный номер. Я не хочу добавлять идентификатор к вектору, так как...
75 просмотров
schedule
10.01.2023
Классификация предметов более чем в одной категории
Я разрабатываю систему классификации новостей, в которой конкретная новость присваивается названию организации или компании. Например, новость с пометкой «Apple выпустит новый iPhone в сентябре 2012 года» попадает в категорию новостей «Apple». До...
680 просмотров
schedule
20.03.2022
Рекомендации Mahout с метаданными, связанными с предпочтениями
Я планировал написать рекомендатель, который по-разному обрабатывает предпочтения в зависимости от контекстной информации (время, когда предпочтение было сделано, устройство, используемое для рекомендации, ...)
В книге Mahout in Action и в примерах...
212 просмотров
schedule
12.11.2023