样本量不足,最直接的后果是:真实存在的差异或关联,统计上检测不到(即假阴性,Type II 错误),导致"无显著结果",但并不代表"没有效果",只是你的研究"没能力"发现它。
反过来,样本量过大也有代价:采集成本高,且会把微小的、无实际意义的差异也判为"显著",反而误导决策。
因此在研究设计阶段(数据收集之前),就应当做先验样本量规划,而不是收完数据再"凑"样本量。审稿人和导师越来越重视这一点。
效应量衡量"差异或关联在现实中有多大",与样本量无关。效应量越小,需要的样本量越大才能检出。
| 效应量指标 | 适用场景 | 小 | 中 | 大 |
|---|---|---|---|---|
| Cohen d | 两组均值比较(t 检验) | 0.2 | 0.5 | 0.8 |
| r(相关系数) | 相关分析 | 0.1 | 0.3 | 0.5 |
| f(Cohen) | 方差分析 ANOVA | 0.1 | 0.25 | 0.4 |
| f²(回归) | 回归分析 R² | 0.02 | 0.15 | 0.35 |
| w | 卡方检验 | 0.1 | 0.3 | 0.5 |
不确定预期效应量时,建议取"小效应"(更保守),计算出的样本量较大,研究更有保障。可参考领域内已发表的 meta 分析或相似研究来获取经验值。
α 是"没有差异却误判为有差异"的最大容许概率。社会科学惯例取 α = 0.05,医学临床常取 α = 0.01 或 0.001。
α 越小(标准越严),所需样本量越大。多重比较时需做 Bonferroni 校正,等效于降低 α,样本量同步增加。
功效是"真实效应存在时,研究成功检测到它"的概率。学术惯例要求 Power ≥ 0.80(即 80% 的概率不漏掉真实效应);高风险决策(如医学干预)建议 0.90 或更高。
Power 越高,所需样本量越大。Power = 0.80 与 Power = 0.90 相比,后者大约需要多 30%~40% 的样本。
数据越分散(标准差越大),差异越难检出,需要样本量越大。可参考预调研或已有同类数据估算标准差。问卷李克特量表的标准差通常在 0.8~1.5 之间(5 点量表)。
当无法做精确功效分析时,以下领域惯例可作参考。注意:这些是经验下限,不代表"正好够用"。
| 分析方法 | 最低样本量 | 推荐样本量 | 说明 |
|---|---|---|---|
| 独立样本 t 检验 | 每组 ≥ 20 | 每组 ≥ 30 | 中效应 d=0.5、α=0.05、Power=0.80 约需每组 52 人 |
| 配对 t 检验 | ≥ 20 对 | ≥ 30 对 | 配对设计控制个体差异,效率更高,所需总人数更少 |
| 单因素 ANOVA | 每组 ≥ 20 | 每组 ≥ 30 | 组数越多,总样本量需求越大;≥ 4 组建议事先做功效分析 |
| 多因素 ANOVA | 每单元格 ≥ 10 | 每单元格 ≥ 20 | 单元格数 = 各因素水平数之积,注意组合爆炸 |
| 皮尔逊相关分析 | ≥ 30 | ≥ 50 | 中效应 r=0.3、α=0.05、Power=0.80 约需 84 人 |
| 线性回归(每个自变量) | 10 倍 | 15~20 倍 | 例:5 个自变量,推荐 75~100 人;回归分析详细指南 |
| 逻辑回归(每个自变量) | 10 倍 | 20 倍 | 且要求每个结局类别(如 0/1)均 ≥ 10 个样本 |
| 探索性因子分析(EFA) | 题数 × 5 | 题数 × 10 | 绝对值不低于 100;KMO ≥ 0.7 间接反映样本充足;效度分析详细指南 |
| 验证性因子分析(CFA) | ≥ 100 | ≥ 200 | 指标数越多、模型越复杂,要求越高 |
| 结构方程模型(SEM) | ≥ 100 | ≥ 200~500 | 参数越多要求越高;复杂模型建议 N ≥ 自由参数数量 × 10 |
| 卡方检验 | 每单元格期望频数 ≥ 5 | 每格 ≥ 10 | 期望频数不足时改用 Fisher 精确检验 |
| 问卷调研(横截面) | ≥ 100 | ≥ 200~300 | 若含亚组分析,每个亚组不低于 30;问卷分析全流程 |
功效分析是样本量规划的正统方法,逻辑是:给定效应量、α、目标 Power 三个参数,推算所需的 n。
G*Power(Faul et al., 2007)是学术界公认的功效分析标准软件,覆盖 t 检验、ANOVA、回归、相关、卡方等主流方法,免费下载,操作界面友好。使用步骤:
在论文方法部分,引用格式示例:"采用 G*Power 3.1 进行先验功效分析(Faul et al., 2007),设定效应量 d = 0.5、α = 0.05、Power = 0.80,计算得每组所需样本量为 52,共 104 人。"
若不便安装软件,可在 ChatSPS(即 chatspss.cn)的对话框直接输入:"帮我做功效分析,t 检验,中等效应量 d=0.5,α=0.05,功效 0.80,要多大样本量?"即可获得即时计算与解读。
以下数值基于中效应、α = 0.05、Power = 0.80的功效分析结果,适合社会科学、管理学、心理学等领域参考:
| 研究场景 | 推荐方法 | 建议总样本量 |
|---|---|---|
| 两组均值比较(中效应 d=0.5) | 独立 t 检验 | 约 104 人(每组 52) |
| 三组均值比较(中效应 f=0.25) | 单因素 ANOVA | 约 159 人(每组 53) |
| 4 组均值比较(中效应 f=0.25) | 单因素 ANOVA | 约 212 人(每组 53) |
| 配对前后测(中效应 d=0.5) | 配对 t 检验 | 约 34 对 |
| 两变量相关(中效应 r=0.3) | 皮尔逊相关 | 约 84 人 |
| 回归(5 个自变量,R²=0.15) | 线性回归 | 约 92 人(经验:75~100) |
| 二元逻辑回归(5 个自变量) | 逻辑回归 | 约 100 人(每个事件类别 ≥ 10) |
| 量表信效度(20 题 EFA) | 探索性因子分析 | 约 200 人(题数 × 10) |
| 问卷横截面调研(3 亚组) | 描述 + 组间检验 | 约 150~300 人 |
| 简单中介模型(Bootstrap) | PROCESS Model 4 | 约 200~300 人 |
当样本量小(< 30 / 每组)且不满足正态分布时,可换用对应的非参数替代方法:
了解更多:参见 P 值解读与显著性判断。
即使 p 值不显著,如果效应量(如 Cohen d、eta²)数值可观,可在论文中诚实报告,指出"统计功效不足,但效应量方向一致,具有探索性意义,建议后续大样本验证"。
论文局限性的规范写法:"本研究样本量为 N = 68,基于 G*Power 计算,统计功效约为 0.62(中效应假设下),低于 0.80 的推荐标准,存在 II 型错误风险,结果宜作为探索性发现,需后续更大样本研究验证。"
样本量规划与以下统计分析方法紧密相关,点击了解详情:
不用再手动算样本量——上传数据后,chatspss 会自动完成 t 检验、ANOVA、回归、因子分析等,并给出效应量与功效说明,输出符合论文规范的三线表与解读报告。
立即免费体验 chatspss