Вопросы по теме 'dplyr'

Как найти разницу между значениями в двух строках в кадре данных R с помощью dplyr
У меня есть кадр данных R, например: df <- data.frame(period=rep(1:4,2), farm=c(rep('A',4),rep('B',4)), cumVol=c(1,5,15,31,10,12,16,24), other = 1:8); period farm cumVol other 1 1...
48932 просмотров
schedule 13.09.2022

могу ли я переключить группирующую переменную в одном операторе dplyr?
Вот простой пример, иллюстрирующий проблему: library(data.table) dt = data.table(a = c(1,1,2,2), b = 1:2) dt[, c := cumsum(a), by = b][, d := cumsum(a), by = c] # a b c d #1: 1 1 1 1 #2: 1 2 1 2 #3: 2 1 3 2 #4: 2 2 3 4 Попытка сделать то...
2961 просмотров
schedule 22.12.2022

dplyr: Как использовать group_by внутри функции?
Я хочу использовать функцию dplyr::group_by внутри другой функции, но я не знаю, как передать аргументы этой функции. Может кто-нибудь привести рабочий пример? library(dplyr) data(iris) iris %.% group_by(Species) %.% summarise(n = n()) # ##...
21534 просмотров
schedule 13.07.2022

Как указать имена столбцов для x и y при объединении в dplyr?
У меня есть два фрейма данных, которые я хочу объединить с помощью dplyr. Один - это фрейм данных, содержащий имена. test_data <- data.frame(first_name = c("john", "bill", "madison", "abby", "zzz"), stringsAsFactors =...
135724 просмотров
schedule 01.01.2024

Работа с уникальными значениями в масштабе (для циклов, применения или плира)
Я не уверен, что это возможно, но если это возможно, это сделало бы жизнь намного эффективнее. Общая проблема, которая была бы интересна более широкому сообществу SO: циклы for (и базовые функции, такие как apply) применимы для...
138 просмотров
schedule 11.09.2022

Суммировать больше не группировать
Я думаю, что dplyr потрясающий. Однако я недавно обновил пакет, и мне кажется, что суммирование для меня больше не агрегирует по группам. Что-то похожее на следующий код, используемый для суммирования по группам перед обновлением: iris_tdt <-...
211 просмотров
schedule 24.02.2022

Переопределение переменных, не отображаемых в dplyr, для отображения всех столбцов из df
Когда у меня есть столбец в локальном фрейме данных, иногда я получаю сообщение Variables not shown , такое как этот (смехотворный) пример, просто нужно достаточно столбцов. library(dplyr) library(ggplot2) # for movies movies %.%...
18183 просмотров

Столбец формата в цепочке dplyr
У меня есть этот набор данных: dat <- structure(list(date = structure(c(1L, 1L, 1L, 2L, 2L, 2L, 3L, 3L, 3L, 4L, 4L), .Label = c("3/31/2014", "4/1/2014", "4/2/2014", "4/3/2014"), class = "factor"), site = structure(c(1L, 2L, 1L, 2L, 1L, 2L,...
20786 просмотров
schedule 22.10.2022

Аннотация сводной статистики на ggplot над полосами на гистограмме
Я создал функцию, которая принимает переменные dataframe, x и y и групповую переменную в качестве аргументов, она выводит гистограмму по уровням переменной x и граням по групповой переменной. Я хочу поместить текстовую метку над полосой, которая...
2067 просмотров
schedule 26.09.2023

Применить сгруппированную модель обратно к данным
Я подхожу таким моделям groupedTrainingSet = group_by(trainingSet, geo); models = do(groupedTrainingSet, mod = lm(revenue ~ julian, data=.)) grouptedTestSet = group_by(testSet, geo); // TODO: apply model back to test set Где модели выглядят...
895 просмотров
schedule 14.01.2023

Как использовать dplyr для устранения циклов for?
Кто-нибудь знает метод dplyr для попарного сопоставления данных с отсутствующими наблюдениями, за которыми следует последующая арифметика? Приведенный ниже тяжелый код цикла for представляет собой MWE в основе, но я не смог справиться с подходом...
2807 просмотров
schedule 25.02.2024

Получите доступ к "родительскому" data.frame после использования group_by в dplyr
Я хотел бы сравнить стандартное отклонение переменной со стандартными отклонениями переменной, сгруппированной по фактору. Это общий sd () require(dplyr) iris %.% summarise( Overall.SD = sd(Sepal.Length) ) Однако я не могу получить к...
161 просмотров
schedule 14.12.2023

Пакет dplyr: как я могу запросить большой фрейм данных, используя синтаксис SQL типа "% xyz%"?
dplyr - единственный пакет, который может обрабатывать мой 843k data.frame и быстро запрашивать его. Я могу точно фильтровать, используя математику и критерии равенства, однако мне нужно реализовать поиск концепции. Мне нужно что-то вроде этого...
8968 просмотров
schedule 28.04.2022

Добавление нескольких столбцов в вызове dplyr mutate
У меня есть фрейм данных с разделенным точками символьным столбцом: > set.seed(310366) > tst = data.frame(x=1:10,y=paste(sample(c("FOO","BAR","BAZ"),10,TRUE),".",sample(c("foo","bar","baz"),10,TRUE),sep="")) > tst x y 1 1...
11968 просмотров
schedule 17.03.2022

Переменная веса в dplyr top_n
Я пытаюсь использовать функцию top_n в пакете dplyr , но она работает только тогда, когда я разрешаю функции использовать вес по умолчанию (последняя переменная в фрейме данных). Следующий пример (с использованием веса по умолчанию) работает:...
1501 просмотров
schedule 12.02.2024

group_by не подводит итоги
Мне сложно работать с библиотекой dplyr. Я пытался реализовать относительно простой фрагмент кода, но по какой-то причине, когда я группирую по одной переменной и пытаюсь суммировать, чтобы получить общую сумму для этой переменной, я получаю только...
248 просмотров
schedule 01.02.2022

Использование mutate сразу для многих столбцов без явного их вывода
Предположим, у меня есть такой фрейм данных d <- data.frame(id = 1:5, var1 = rep(1, 5), var2 = rep(2, 5), var3 = rep(3, 5), m = seq(0, 1, length.out = 5)) d # id var1 var2 var3 m # 1 1 2 3 0.00 # 2 1 2 3 0.25 # 3...
127 просмотров
schedule 30.08.2022

Более приятный вывод для вывода функции, применяемой к каждому столбцу
Я пытаюсь найти сводную статистику о data.frame: avg.nas <- apply(my.data, 2, function(x) mean(is.na(x))) Это дает ожидаемый результат: именованный числовой вектор со значением для каждого столбца. Проблема в том, что это значение...
80 просмотров
schedule 25.09.2023

Группировка DataFrame и усреднение строк в несколько столбцов на основе группирования, игнорирование нулей
Мой фрейм данных data выглядит следующим образом: Week Group Cost Revenue Wk1 A 104 148 Wk1 A 0 159 Wk1 A 92 151 Wk1 A 113 144 Wk1 B 331 500 WK1 B 325 524 Wk1 B...
199 просмотров
schedule 25.02.2022

left_join(x,y) и нет данных
Увидев это сообщение с хорошим ответом @akrun, я хотел поиграть с dplyr . Вот примеры данных из поста и akrun. df = data.frame( id1 = c(1,1,2,2,2,3,3,3,3), id2 = c(1,2,1,2,3,1,2,3,4), X1 = letters[1:9], X2 =...
231 просмотров
schedule 29.06.2022