В прошлом я делал дендрограммы, следуя различным онлайн-руководствам (например, https://rstudio-pubs-static.s3.amazonaws.com/33876_1d7794d9a86647ca90c4f182df93f0e8.html)
Цель: сгруппировать Exposures
по Category
и визуализировать это в виде дерева/дендрограммы (например, ExpA
и ExpD
будут сгруппированы вместе, так как они оба HeavyMetals
).
Предыстория: я пытаюсь составить дерево/дендрограмму из следующего:
Exposures = c("ExpA","ExpB", "ExpC","ExpD","ExpE", "ExpF")
Category = c("HeavyMetal","Hormone", "Pesticide", "HeavyMetal", "Pesticide", "Hormone" )
dataframe = data.frame(Exposures,Category)
Я пробовал следующее:
hp = hclust(dist(dataframe))
plot(hp, labels = Exposures)
Но я получаю сообщение об ошибке:
Error in hclust(dist(dataframe1)) :
NA/NaN/Inf in foreign function call (arg 11)
In addition: Warning message:
In dist(dataframe1) : NAs introduced by coercion
Я думаю, что сообщение об ошибке связано с тем, что у меня нет числовых данных, но я не уверен.
Вопрос: есть ли способ создать структуру дерева/дендрограммы из фрейма данных, подобную приведенной выше, с учетом вышеупомянутой цели?
Благодарю вас!
hclust()
требуется матрица различий. Можете ли вы указать различия между вашими наблюдениями? - person Fred Boehm   schedule 20.04.2017Exposures
являются отдельными категориями. Это не будет полезной переменной для измерения различий и для кластеризации данных. - person G5W   schedule 20.04.2017