你跑完 t 检验,得到 p = 0.003,兴奋地写进论文。但审稿人回来一句话:"请补充效应量。"
这是因为 p 值只能回答"差异是不是真实存在的",却告诉不了你"这个差异有多大、有没有实际意义"。
效应量(effect size)正是为了解决这个问题而存在的。它衡量的是差异或关联的实际大小,与样本量无关。
目前,APA 第 7 版(2020)、Nature 等顶刊、国内越来越多的学术期刊和毕业论文答辩都明确要求:报告统计结果时,必须同时给出效应量。
效应量是一类标准化的、与样本量无关的指标,用来描述:
可以用一句话理解:p 值告诉你"有没有效果",效应量告诉你"效果有多强"。
不同的统计分析方法对应不同的效应量指标。下表汇总了最常用的五种,及 Cohen(1988)等提出的大中小参考阈值:
| 效应量 | 适用分析 | 小 | 中 | 大 | 含义 |
|---|---|---|---|---|---|
| Cohen's d | 独立/配对 t 检验、两组均值比较 | 0.2 | 0.5 | 0.8 | 均值差异除以合并标准差,衡量两组"有多少个标准差的距离" |
| η²(eta squared) | 单因素 / 多因素方差分析(ANOVA) | 0.01 | 0.06 | 0.14 | 自变量解释因变量总变异的比例;偏 η²(partial η²)更常用于多因素 |
| r(皮尔逊相关系数) | 相关分析、也可用于 t 检验 | 0.1 | 0.3 | 0.5 | 两变量线性关联强度,范围 -1 到 1;r² 表示解释的方差比例 |
| OR(比值比) | 二元逻辑回归、卡方检验 | 1.5 | 2.5 | 4.0 | 某因素存在时结果发生的概率是不存在时的多少倍;1 表示无效应 |
| f²(Cohen's f²) | 线性回归(R² 增量)、多层回归 | 0.02 | 0.15 | 0.35 | 回归模型新增变量带来的解释力提升,f² = R² / (1-R²) |
Cohen's d = (A 组均值 - B 组均值)/ 合并标准差。直观理解:d = 0.5 意味着两组分布重叠约 67%,差异肉眼可见但不悬殊;d = 0.8 意味着重叠约 53%,差异相当明显。
η² = 该因素的平方和 / 总平方和(受其他因素影响);偏 η²(partial η²)= 该因素的平方和 /(该因素平方和 + 误差平方和),排除其他因素的干扰,在多因素 ANOVA 中更常报告。SPSS 和 chatspss 默认输出偏 η²。
对于 t 检验,也可以把 t 值转换为 r:r = t / sqrt(t² + df)。相关分析中的皮尔逊 r 直接就是效应量。r = 0.3 表示两变量共享约 9% 的方差(r² = 0.09)。
APA 第 7 版推荐的报告格式,将效应量紧跟在统计检验结果后面给出:
实验组(M = 78.5, SD = 9.2)显著高于对照组(M = 71.3, SD = 10.1),t(58) = 2.91, p = .005, d = 0.74,效应量达到中等偏大水平。
三组之间在学习成绩上存在显著差异,F(2, 87) = 8.34, p < .001, η² = .16,效应量较大。
焦虑得分与学习效率之间存在显著负相关,r(120) = -.42, p < .001,效应量中等。
吸烟显著预测肺病风险,OR = 3.21, 95% CI [1.87, 5.52], p < .001,暴露组发病风险约为非暴露组的 3.2 倍。
报告要点:
传统做法是跑完分析再手动用公式换算效应量,容易出错。chatspss 在运行统计分析时自动在报告中附带效应量,无需额外计算。
"对实验组和对照组的前测成绩做独立样本 t 检验,输出 Cohen's d""做单因素方差分析,比较三个教学方式对考试成绩的影响,报告 η²""分析年龄与焦虑量表得分的相关性,给出 r 和 r²"
chatspss 输出内容包括:
相关分析方法页:
这说明差异在统计上是真实的(排除了偶然),但实际规模很小。大样本量会让微小差异也达到显著。论文中需同时呈现效应量,让读者自行判断结果是否具有实际意义。审稿人通常会对"显著但效应极小"的结果追问实践价值。
两组均值比较(独立样本 t 检验、配对 t 检验)首选 Cohen's d,标准明确(0.2/0.5/0.8),被社会科学领域广泛接受。如果你的期刊或导师偏好 r,也可以同时报告:r = t / sqrt(t² + df)。方差分析(ANOVA)则用 η² 或偏 η²,不要混用 Cohen's d。
必须报告。APA 第 7 版明确要求效应量不论大小都要呈现,这是学术规范的底线。效应量小本身不是问题,部分领域(如大规模流行病学研究)小效应同样有重要政策意义。需要在讨论中结合专业背景说明其含义,而不是因为小就隐藏。
样本量只影响 p 值(检验效能),不影响效应量本身的大小。效应量是"样本量无关"的指标,这正是它的价值所在。大样本研究中 p 值几乎必然显著,此时效应量才是判断结果重要性的关键依据。做功效分析(power analysis)时,也需要先预估效应量才能确定所需样本量——可参考 样本量计算页。
上传 Excel / SPSS 数据,说一句话,chatspss 自动输出 Cohen's d、η²、r——含 APA 格式报告,直接贴进论文。
立即免费体验