我是一名 R 初学者用户,正在研究松果的不同特征如何影响松果中种子的数量。
我已经使用 lm() 进行了许多线性回归,毫无问题地看到几个特征有显着的 p 值,例如种子所在的螺旋度数(“Deg”)以及总数圆锥体中的种子数量(“TotalSeed”)。
在“Deg”列中,数字 360 出现频率最高(15 个数据点中出现 6 个)。有没有办法查看 360 度是否比其他数据点(720、540、270 等)与更高的 TotalSeed 相关?如果可能的话,使用 p 值,因为这是我所在领域中任何人都理解/接受的唯一统计数据。
德格 | 总种子 | |
---|---|---|
1 | 480 | 358 |
2 | 200 | 400 |
3 | 360 | 366 |
4 | 360 | 394 |
5 | 360 | 362 |
6 | 270 | 476 |
7 | 360 | 516 |
8 | 475 | 284 |
9 | 540 | 441 |
10 | 270 | 363 |
11 | 720 | 380 |
12 | 360 | 345 |
13 | 720 | 451 |
14 | 360 | 359 |
15 | 300 | 286 |
我尝试将 lm() 与 dplyr 的 filter() 和 select() 函数结合使用,但这并不能告诉我 360 是否比其他结果相关性更强(这是有道理的)。
几点:
发布到 SO 时,以 R 代码形式提供输入,以便其他人可以使用
dput
或其他方式轻松使用它。 这次我们在最后的备注中为大家提供了
需要对您想要检验的假设进行精确定义。 我们假设我们希望测试
TotalSeed
为 360 的 Deg
值的平均值是否等于 TotalSeed
不等于 360 的 Deg
值的平均值。存在一个问题:是否我们应该假设两组的方差相同或不同。 我们将以两种方式执行此操作,我们将看到 p 值几乎相同 - 对于不等方差,p = 0.8159;对于相等方差,p = 0.818。
实现等方差 t 检验的第二种方法是使用
lm
,我们也在下面展示它并给出相同的 p 值。
代码
## unequal variances ###
t.test(subset(dat, Deg == 360)$TotalSeed,
subset(dat, Deg != 360)$TotalSeed))
## Welch Two Sample t-test
##
## data: subset(dat, Deg == 360)$TotalSeed and subset(dat, Deg != 360)$TotalSeed
## t = 0.23828, df = 11.405, p-value = 0.8159 <--------
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -67.39897 83.84341
## sample estimates:
## mean of x mean of y
## 390.3333 382.1111
# assuming equal variances ###
t.test(subset(dat, Deg == 360)$TotalSeed,
subset(dat, Deg != 360)$TotalSeed, var.equal = TRUE)
## Two Sample t-test
## data: subset(dat, Deg == 360)$TotalSeed and subset(dat, Deg != 360)$TotalSeed
## t = 0.23478, df = 13, p-value = 0.818 <--------
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -67.43697 83.88142
## sample estimates:
## mean of x mean of y
## 390.3333 382.1111
我们可以使用
lm
交替执行等方差情况
summary(lm(TotalSeed ~ I(Deg == 360), dat))
## Call:
## lm(formula = TotalSeed ~ I(Deg == 360), data = dat)
##
## Residuals:
## Min 1Q Median 3Q Max
## -98.11 -29.83 -19.11 38.39 125.67
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 382.111 22.149 17.251 2.43e-10 ***
## I(Deg == 360)TRUE 8.222 35.021 0.235 0.818
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
##
## Residual standard error: 66.45 on 13 degrees of freedom
## Multiple R-squared: 0.004222, Adjusted R-squared: -0.07238
## F-statistic: 0.05512 on 1 and 13 DF, p-value: 0.818 <--------