是否有R函数/统计量可以查看A列中多次出现的特定值对B列的影响?

问题描述 投票:0回答:1

我是一名 R 初学者用户,正在研究松果的不同特征如何影响松果中种子的数量。

我已经使用 lm() 进行了许多线性回归,毫无问题地看到几个特征有显着的 p 值,例如种子所在的螺旋度数(“Deg”)以及总数圆锥体中的种子数量(“TotalSeed”)。

在“Deg”列中,数字 360 出现频率最高(15 个数据点中出现 6 个)。有没有办法查看 360 度是否比其他数据点(720、540、270 等)与更高的 TotalSeed 相关?如果可能的话,使用 p 值,因为这是我所在领域中任何人都理解/接受的唯一统计数据。

德格 总种子
1 480 358
2 200 400
3 360 366
4 360 394
5 360 362
6 270 476
7 360 516
8 475 284
9 540 441
10 270 363
11 720 380
12 360 345
13 720 451
14 360 359
15 300 286

我尝试将 lm() 与 dplyr 的 filter() 和 select() 函数结合使用,但这并不能告诉我 360 是否比其他结果相关性更强(这是有道理的)。

r statistics
1个回答
0
投票

几点:

  • 发布到 SO 时,以 R 代码形式提供输入,以便其他人可以使用

    dput
    或其他方式轻松使用它。 这次我们在最后的备注中为大家提供了

  • 需要对您想要检验的假设进行精确定义。 我们假设我们希望测试

    TotalSeed
    为 360 的
    Deg
    值的平均值是否等于
    TotalSeed
    不等于 360 的
    Deg
    值的平均值。存在一个问题:是否我们应该假设两组的方差相同或不同。 我们将以两种方式执行此操作,我们将看到 p 值几乎相同 - 对于不等方差,p = 0.8159;对于相等方差,p = 0.818。

  • 实现等方差 t 检验的第二种方法是使用

    lm
    ,我们也在下面展示它并给出相同的 p 值。

代码

## unequal variances ###
t.test(subset(dat, Deg == 360)$TotalSeed, 
       subset(dat, Deg != 360)$TotalSeed))

##         Welch Two Sample t-test
##
## data:  subset(dat, Deg == 360)$TotalSeed and subset(dat, Deg != 360)$TotalSeed
## t = 0.23828, df = 11.405, p-value = 0.8159 <--------
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -67.39897  83.84341
## sample estimates:
## mean of x mean of y 
##  390.3333  382.1111 

# assuming equal variances ###
t.test(subset(dat, Deg == 360)$TotalSeed, 
       subset(dat, Deg != 360)$TotalSeed, var.equal = TRUE)

##         Two Sample t-test
## data:  subset(dat, Deg == 360)$TotalSeed and subset(dat, Deg != 360)$TotalSeed
## t = 0.23478, df = 13, p-value = 0.818  <--------
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -67.43697  83.88142
## sample estimates:
## mean of x mean of y 
##  390.3333  382.1111 

我们可以使用

lm

交替执行等方差情况
summary(lm(TotalSeed ~ I(Deg == 360), dat))

## Call:
## lm(formula = TotalSeed ~ I(Deg == 360), data = dat)
##
## Residuals:
##    Min     1Q Median     3Q    Max 
## -98.11 -29.83 -19.11  38.39 125.67 
##
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)        382.111     22.149  17.251 2.43e-10 ***
## I(Deg == 360)TRUE    8.222     35.021   0.235    0.818    
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
##
## Residual standard error: 66.45 on 13 degrees of freedom
## Multiple R-squared:  0.004222,  Adjusted R-squared:  -0.07238 
## F-statistic: 0.05512 on 1 and 13 DF,  p-value: 0.818  <--------
© www.soinside.com 2019 - 2024. All rights reserved.