Я пытаюсь создать data.frame, в котором я добавил долю разных полов в возрастном распределении пропорционально возрастному распределению.
У меня есть следующие две таблицы данных.
date time age confirmed deceased
1: 2020-03-02 0 0s 32 0
2: 2020-03-02 0 10s 169 0
3: 2020-03-02 0 20s 1235 0
4: 2020-03-02 0 30s 506 1
5: 2020-03-02 0 40s 633 1
---
1085: 2020-06-30 0 40s 1681 3
1086: 2020-06-30 0 50s 2286 15
1087: 2020-06-30 0 60s 1668 41
1088: 2020-06-30 0 70s 850 82
1089: 2020-06-30 0 80s 556 139
date time sex confirmed deceased
1: 2020-03-02 0 male 1591 13
2: 2020-03-02 0 female 2621 9
3: 2020-03-03 0 male 1810 16
4: 2020-03-03 0 female 3002 12
5: 2020-03-04 0 male 1996 20
---
238: 2020-06-28 0 female 7265 131
239: 2020-06-29 0 male 5470 151
240: 2020-06-29 0 female 7287 131
241: 2020-06-30 0 male 5495 151
242: 2020-06-30 0 female 7305 131
Можно ли определить долю полов в каждой возрастной группе?
В общем, я хочу контролировать влияние третьей контрольной переменной (распределение по возрасту) на коронарные заболевания. Существует тенденция, что уровень умерших мужчин выше, чем женщин. Я хотел бы исследовать частотное распределение возрастных групп между возрастами, чтобы найти, возможно, больше объяснений.
Я благодарен за любой совет
https://www.kaggle.com/kimjihoo/coronavirusdataset
. Я использовал наборы данных TimeGender и TmeAge. Я не могу объединить, потому что TimeGender имеет две записи одной даты из-за двух двух типов пола, а TimeAge имеет 9 записей данных. - person Benjamin Utsch   schedule 18.01.2021# for age data set: dplyr solution df1 %>% group_by(age) %>% summarise(N = n(), tot_cases = sum(confirmed))
То же самое касается набора данных по полу. Вам нужно объединить два фрейма данных, чтобы найти доли по полу в каждой возрастной группе. - person Eyayaw   schedule 18.01.2021aggregate(confirmed~age, sum, data = TimeAge_dt)
- person Eyayaw   schedule 18.01.2021TimeGender_dt %>% group_by(age) %>% summarise(N = n(), tot_cases = sum(confirmed) )
- person Eyayaw   schedule 18.01.2021