← 返回方法库首页

样本量要多少才够?问卷与实验样本量怎么确定

分类:统计百科 | 更新时间:2026/06/17
核心回答:没有万能的"标准样本量"。样本量由四个因素共同决定——效应量(你预期差异有多大)、显著性水平 α(一般取 0.05)、统计功效 Power(一般取 0.80)、变异程度(数据本身有多分散)。四者只要确定三个,就能推算出第四个。本页提供各方法经验速查表,帮你在没有功效分析软件时快速判断。

一、为什么样本量是论文/调研的第一个问题

样本量不足,最直接的后果是:真实存在的差异或关联,统计上检测不到(即假阴性,Type II 错误),导致"无显著结果",但并不代表"没有效果",只是你的研究"没能力"发现它。

反过来,样本量过大也有代价:采集成本高,且会把微小的、无实际意义的差异也判为"显著",反而误导决策。

因此在研究设计阶段(数据收集之前),就应当做先验样本量规划,而不是收完数据再"凑"样本量。审稿人和导师越来越重视这一点。

二、影响样本量的四大因素

1. 效应量(Effect Size)

效应量衡量"差异或关联在现实中有多大",与样本量无关。效应量越小,需要的样本量越大才能检出。

效应量指标适用场景
Cohen d两组均值比较(t 检验)0.20.50.8
r(相关系数)相关分析0.10.30.5
f(Cohen)方差分析 ANOVA0.10.250.4
f²(回归)回归分析 R²0.020.150.35
w卡方检验0.10.30.5

不确定预期效应量时,建议取"小效应"(更保守),计算出的样本量较大,研究更有保障。可参考领域内已发表的 meta 分析或相似研究来获取经验值。

2. 显著性水平 α(Type I 错误率)

α 是"没有差异却误判为有差异"的最大容许概率。社会科学惯例取 α = 0.05,医学临床常取 α = 0.01 或 0.001。

α 越小(标准越严),所需样本量越大。多重比较时需做 Bonferroni 校正,等效于降低 α,样本量同步增加。

3. 统计功效 Power(1 - β)

功效是"真实效应存在时,研究成功检测到它"的概率。学术惯例要求 Power ≥ 0.80(即 80% 的概率不漏掉真实效应);高风险决策(如医学干预)建议 0.90 或更高。

Power 越高,所需样本量越大。Power = 0.80 与 Power = 0.90 相比,后者大约需要多 30%~40% 的样本。

4. 变异程度(标准差 / 方差)

数据越分散(标准差越大),差异越难检出,需要样本量越大。可参考预调研或已有同类数据估算标准差。问卷李克特量表的标准差通常在 0.8~1.5 之间(5 点量表)。

三、常见经验法则(快速参考)

当无法做精确功效分析时,以下领域惯例可作参考。注意:这些是经验下限,不代表"正好够用"。

分析方法 最低样本量 推荐样本量 说明
独立样本 t 检验 每组 ≥ 20 每组 ≥ 30 中效应 d=0.5、α=0.05、Power=0.80 约需每组 52 人
配对 t 检验 ≥ 20 对 ≥ 30 对 配对设计控制个体差异,效率更高,所需总人数更少
单因素 ANOVA 每组 ≥ 20 每组 ≥ 30 组数越多,总样本量需求越大;≥ 4 组建议事先做功效分析
多因素 ANOVA 每单元格 ≥ 10 每单元格 ≥ 20 单元格数 = 各因素水平数之积,注意组合爆炸
皮尔逊相关分析 ≥ 30 ≥ 50 中效应 r=0.3、α=0.05、Power=0.80 约需 84 人
线性回归(每个自变量) 10 倍 15~20 倍 例:5 个自变量,推荐 75~100 人;回归分析详细指南
逻辑回归(每个自变量) 10 倍 20 倍 且要求每个结局类别(如 0/1)均 ≥ 10 个样本
探索性因子分析(EFA) 题数 × 5 题数 × 10 绝对值不低于 100;KMO ≥ 0.7 间接反映样本充足;效度分析详细指南
验证性因子分析(CFA) ≥ 100 ≥ 200 指标数越多、模型越复杂,要求越高
结构方程模型(SEM) ≥ 100 ≥ 200~500 参数越多要求越高;复杂模型建议 N ≥ 自由参数数量 × 10
卡方检验 每单元格期望频数 ≥ 5 每格 ≥ 10 期望频数不足时改用 Fisher 精确检验
问卷调研(横截面) ≥ 100 ≥ 200~300 若含亚组分析,每个亚组不低于 30;问卷分析全流程
注意:上表中"每个自变量 10 倍"规则,虽广泛流传,但已有研究(Vittinghoff & McCulloch, 2007 等)证明该规则过于保守或不足,仅作快速入门参考。正式研究应以功效分析为准。

四、怎么精确估算:功效分析(Power Analysis)

功效分析是样本量规划的正统方法,逻辑是:给定效应量、α、目标 Power 三个参数,推算所需的 n。

G*Power——最常用的免费工具

G*Power(Faul et al., 2007)是学术界公认的功效分析标准软件,覆盖 t 检验、ANOVA、回归、相关、卡方等主流方法,免费下载,操作界面友好。使用步骤:

  1. 选择 Test family(如 t tests)和 Statistical test(如 Means: Difference between two independent means)
  2. 选择 A priori(先验)类型,输入 Effect size、α(通常 0.05)、Power(通常 0.80)
  3. 点击 Calculate,得到所需样本量 N

在论文方法部分,引用格式示例:"采用 G*Power 3.1 进行先验功效分析(Faul et al., 2007),设定效应量 d = 0.5、α = 0.05、Power = 0.80,计算得每组所需样本量为 52,共 104 人。"

在线替代工具

若不便安装软件,可在 ChatSPS(即 chatspss.cn)的对话框直接输入:"帮我做功效分析,t 检验,中等效应量 d=0.5,α=0.05,功效 0.80,要多大样本量?"即可获得即时计算与解读。

五、各方法经验样本量速查表(论文常见场景)

以下数值基于中效应、α = 0.05、Power = 0.80的功效分析结果,适合社会科学、管理学、心理学等领域参考:

研究场景 推荐方法 建议总样本量
两组均值比较(中效应 d=0.5)独立 t 检验约 104 人(每组 52)
三组均值比较(中效应 f=0.25)单因素 ANOVA约 159 人(每组 53)
4 组均值比较(中效应 f=0.25)单因素 ANOVA约 212 人(每组 53)
配对前后测(中效应 d=0.5)配对 t 检验约 34 对
两变量相关(中效应 r=0.3)皮尔逊相关约 84 人
回归(5 个自变量,R²=0.15)线性回归约 92 人(经验:75~100)
二元逻辑回归(5 个自变量)逻辑回归约 100 人(每个事件类别 ≥ 10)
量表信效度(20 题 EFA)探索性因子分析约 200 人(题数 × 10)
问卷横截面调研(3 亚组)描述 + 组间检验约 150~300 人
简单中介模型(Bootstrap)PROCESS Model 4约 200~300 人

六、样本量不足时的补救策略

1. 采用非参数检验

当样本量小(< 30 / 每组)且不满足正态分布时,可换用对应的非参数替代方法:

了解更多:参见 P 值解读与显著性判断

2. 报告效应量(弥补显著性不足)

即使 p 值不显著,如果效应量(如 Cohen d、eta²)数值可观,可在论文中诚实报告,指出"统计功效不足,但效应量方向一致,具有探索性意义,建议后续大样本验证"。

3. 增大效应量(设计层面)

4. 在局限性中如实说明

论文局限性的规范写法:"本研究样本量为 N = 68,基于 G*Power 计算,统计功效约为 0.62(中效应假设下),低于 0.80 的推荐标准,存在 II 型错误风险,结果宜作为探索性发现,需后续更大样本研究验证。"

七、常见问题 FAQ

Q:样本量越大越好吗?
不一定。样本量越大,统计功效越高,越容易检出差异,但也越容易把微小的、无实际意义的差异判为"显著"。例如 10 000 人的调查里,两组均值差 0.01 分也可能 p < 0.05,但这个差异在现实中毫无意义。因此,样本量要"够用"而非"越多越好",关键是结合效应量来判断实际意义。
Q:样本量不够能发论文吗?
可以发,但需要如实报告局限性。做法是:在局限性章节说明样本量较小、统计功效不足,结果宜作为探索性发现,需后续大样本验证。同时可考虑使用非参数检验(对小样本更稳健)、充分报告效应量,以及做功效分析说明已达到的检验力水平。
Q:预调研(预测试)需要多少人?
预调研的目的是测试问卷语义清晰度、检验信效度初步指标,通常 30~50 人即可。主要看 Cronbach α(目标 > 0.7)、题项删除后 α 变化、各题均值分布、被试完成时间等。预调研数据通常不并入正式样本。
Q:网络问卷回收率低,怎么估算要发多少份?
用公式:需发出份数 = 目标有效样本量 ÷ 预期回收率。网络问卷一般回收率为 20%~50%(学生样本较高,陌生人群体较低)。例如目标 200 份有效样本、回收率 30%,则需发出约 667 份。建议在目标量基础上再增加 10%~20% 缓冲以应对质量筛除。
Q:效应量是什么?怎么确定预期效应量?
效应量(Effect Size)衡量"差异或关联在现实中有多大",与样本量无关。确定预期效应量的方法:① 参考同领域已发表文献的效应量报告(首选);② 若无文献参考,按 Cohen(1988)经验标准取小效应(更保守),所得样本量更大,安全性更高;③ 做预调研,估算初步效应量后再规划正式样本。
Q:因子分析样本量有没有最低限制?
有。主流共识:(1) 绝对值至少 100 人,200 人较理想;(2) 样本量与题项数之比(N:p)至少 5:1,建议 10:1;(3) KMO 值须 ≥ 0.7(间接反映样本充足性)。样本量不足会导致因子结构不稳定,难以在另一批数据中复现。详见 效度分析(EFA/KMO/因子分析)

八、相关方法页

样本量规划与以下统计分析方法紧密相关,点击了解详情:

用 chatspss 直接跑统计分析

不用再手动算样本量——上传数据后,chatspss 会自动完成 t 检验、ANOVA、回归、因子分析等,并给出效应量与功效说明,输出符合论文规范的三线表与解读报告。

立即免费体验 chatspss