我有一个数据框,如下所示:
dat <- read.table(text=
"ID | Year | Month | Variable | Value1 | Value2 | Value3
1 | 1950 | 1 | PRCP | 0 | 1 | 0
1 | 1950 | 1 | TMAX | 52 | 51 | 52
1 | 1950 | 1 | TMIN | 41 | 41 | 39
1 | 1950 | 2 | PRCP | 1 | 0 | 1
1 | 1950 | 2 | TMAX | 55 | 57 | 58",
header=TRUE, sep="|")
有50个站点ID,年份跨度为1950-2005,第1-12个月,有3个天气变量(PRCP,TMAX和TMIN),然后每月的每一天的Value1-Value31列以及天气变量测量值。
我想创建一个看起来像这样的数据框:
ID | Date | PRCP
1 | 1950-01-01 | 0
1 | 1950-01-02 | 1
1 | 1950-01-03 | 0
到目前为止,我已经能够为每个天气变量创建3个单独的数据集,但是我不知道如何创建新列并相应地扩展行(每个月的每一天需要31个新行)。我是R的新手,将不胜感激-谢谢!
我们可以使用melt/dcast
从data.table
。我们将'data.frame'转换为'data.table'(setDT(dat)
),使用'宽'格式重整为'长'格式melt
,并创建一个按ID,年,月分组的序列列(ind) ”和“变量”。通过粘贴“年”,“月”和“ ind”创建“日期”列,然后使用将其重塑为“宽”格式dcast
。无需创建三个单独的数据集,我们可以将所有信息包含在一个数据集中。
library(data.table)#v1.9.6+
dM <- melt(setDT(dat), measure=patterns('^Value'))
dM1 <- dM[, ind:= 1:.N, by = .(ID, Year, Month, Variable)]
dM1[, Date:=as.Date(sprintf('%04d-%02d-%02d', Year, Month, ind))]
dcast(dM1, ID+Date~Variable, value.var='value1')
# ID Date PRCP TMAX TMIN
#1: 1 1950-01-01 0 52 41
#2: 1 1950-01-02 1 51 41
#3: 1 1950-01-03 0 52 39
#4: 1 1950-02-01 1 55 NA
#5: 1 1950-02-02 0 57 NA
#6: 1 1950-02-03 1 58 NA
注意:在示例数据中,OP仅提供了3个“值”列。我猜在原始数据集中,它将是31列。
dat <- structure(list(ID = c(1, 1, 1, 1, 1), Year = c(1950, 1950, 1950,
1950, 1950), Month = c(1, 1, 1, 2, 2), Variable = c("PRCP", "TMAX",
"TMIN", "PRCP", "TMAX"), Value1 = c(0, 52, 41, 1, 55), Value2 = c(1,
51, 41, 0, 57), Value3 = c(0, 52, 39, 1, 58)), .Names = c("ID",
"Year", "Month", "Variable", "Value1", "Value2", "Value3"),
row.names = c(NA, -5L), class = "data.frame")
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句