Дендрограмма: группировка по характеристикам

В прошлом я делал дендрограммы, следуя различным онлайн-руководствам (например, https://rstudio-pubs-static.s3.amazonaws.com/33876_1d7794d9a86647ca90c4f182df93f0e8.html)

Цель: сгруппировать Exposures по Category и визуализировать это в виде дерева/дендрограммы (например, ExpA и ExpD будут сгруппированы вместе, так как они оба HeavyMetals).

Предыстория: я пытаюсь составить дерево/дендрограмму из следующего:

Exposures = c("ExpA","ExpB", "ExpC","ExpD","ExpE", "ExpF")
Category = c("HeavyMetal","Hormone", "Pesticide", "HeavyMetal", "Pesticide", "Hormone" )
dataframe = data.frame(Exposures,Category)

Я пробовал следующее:

hp = hclust(dist(dataframe))
plot(hp, labels = Exposures)

Но я получаю сообщение об ошибке:

Error in hclust(dist(dataframe1)) : 
  NA/NaN/Inf in foreign function call (arg 11)
In addition: Warning message:
In dist(dataframe1) : NAs introduced by coercion

Я думаю, что сообщение об ошибке связано с тем, что у меня нет числовых данных, но я не уверен.

Вопрос: есть ли способ создать структуру дерева/дендрограммы из фрейма данных, подобную приведенной выше, с учетом вышеупомянутой цели?

Благодарю вас!


person SFC    schedule 20.04.2017    source источник
comment
Кажется, что hclust() требуется матрица различий. Можете ли вы указать различия между вашими наблюдениями?   -  person Fred Boehm    schedule 20.04.2017
comment
Я ищу в Google, чтобы ответить на ваш вопрос, но я не совсем уверен, как указать различия между моими наблюдениями. Как мне это сделать?   -  person SFC    schedule 20.04.2017
comment
artax.karlin.mff.cuni.cz/ r-help/library/proxy/html/dist.html   -  person SFC    schedule 20.04.2017
comment
Вы имеете в виду simil() в следующей ссылке?   -  person SFC    schedule 20.04.2017
comment
Я заметил, что все ваши Exposures являются отдельными категориями. Это не будет полезной переменной для измерения различий и для кластеризации данных.   -  person G5W    schedule 20.04.2017
comment
Различия: ExpA ExpB ExpC ExpD ExpE ExpB 1.0 ExpC 1.0 1.0 ExpD 0.5 1.0 1.0 ExpD 1.0 1.0 0.5 1.0 ExpF 1.0 0.5 1.0 1.0 1.0 Метрика: смешанная; Типы = N, N Количество объектов: 6   -  person SFC    schedule 20.04.2017