Принятие решения о настройке размера кластера в Carrot2

Я использую алгоритм carrot2 STC (кластеризация дерева суффиксов) для кластеризации множества документов. По умолчанию максимальное количество кластеров, формируемых алгоритмом, равно 16. Есть ли способ определить количество сгенерированных кластеров?

Ниже приведен код для вызова кластеров STC.

ProcessingResult byDomainClusters = controller.process(documents, null, STCClusteringAlgorithm.class);
List<Cluster> clustersByDomain = byDomainClusters.getClusters();
ConsoleFormatter.displayClusters(clustersByDomain);

person Betafish    schedule 11.10.2017    source источник


Ответы (1)


Чтобы получить больше кластеров, попробуйте увеличить значения maxClusters и maxBaseClusters параметры. Вот как передавать значения параметров в коде Java.

Однако малое количество кластеров также может быть вызвано характеристиками ваших входных данных (слишком мало документов?). Чтобы убедиться в этом, попробуйте кластеризовать данные с помощью алгоритма Lingo.

person Stanislaw Osinski    schedule 12.10.2017