样本量要多少才够？问卷与实验样本量怎么确定

Q: 样本量越大越好吗？

不一定。样本量越大，统计功效越高，越容易检出差异，但也越容易把微小的、无实际意义的差异判为“显著”。例如 10 000 人的调查里，两组均值差 0.01 分也可能 p<0.05，但这个差异在现实中毫无意义。因此，样本量要“够用”而非“越多越好”，关键是结合效应量和功效来判断。

Q: 样本量不够能发论文吗？

可以发，但需要如实报告局限性。做法是：在局限性章节说明样本量较小、统计功效不足，结果宜作为探索性发现，需后续大样本验证。同时可考虑采用非参数检验（对小样本更稳健）、提高效应量报告（如 Cohen d、eta-squared），以及做功效分析说明已达到的检验力水平。

Q: 预调研（预测试）需要多少人？

预调研的目的是测试问卷语义清晰度、检验信效度初步指标，通常 30～50 人即可。预调研不用于正式统计检验，主要看 Cronbach α（>0.7）、题项删除后 α 变化、各题均值分布（避免极端值）、被试完成时间等。预调研数据通常不并入正式样本。

Q: 网络问卷回收率低，怎么估算要发多少份？

用公式：需发出份数 = 目标有效样本量 / 预期回收率。网络问卷一般回收率为 20%～50%（学生样本较高，陌生人群体较低）。例如目标有效样本 200 份、预期回收率 30%，则需发出 200 / 0.3 ≈ 667 份。另外还要扣除质量筛选（如填写时间过短、全选同一选项），建议在目标有效量基础上再增加 10%～20% 的缓冲。

Q: 效应量是什么？怎么确定预期效应量？

效应量（Effect Size）是衡量“差异或关联实际有多大”的标准化指标，与样本量无关。常用指标有 Cohen d（均值差比较）、r（相关强度）、f（方差分析）、f²（回归）。如何确定预期效应量：①参考同领域已发表文献的效应量报告；②若无文献参考，按 Cohen（1988）的经验标准：小效应 d=0.2、中效应 d=0.5、大效应 d=0.8；③不确定时用小效应（更保守），算出的样本量更大，安全性更高。

Q: 因子分析样本量有没有最低限制？

有。主流共识是：(1) 样本量绝对值至少 100 人，200 人较为理想；(2) 样本量与题项数之比（N:p）至少 5:1，建议 10:1；(3) KMO 值（取样适切性）须 ≥ 0.7，这间接反映样本量是否充足。若样本量不足，因子结构会不稳定，同一批数据跑两次 EFA 可能得到不同结果，难以复现。

分类：统计百科 | 更新时间：2026/06/17

      核心回答：没有万能的"标准样本量"。样本量由四个因素共同决定——效应量（你预期差异有多大）、显著性水平 α（一般取 0.05）、统计功效 Power（一般取 0.80）、变异程度（数据本身有多分散）。四者只要确定三个，就能推算出第四个。本页提供各方法经验速查表，帮你在没有功效分析软件时快速判断。
    

一、为什么样本量是论文/调研的第一个问题

样本量不足，最直接的后果是：真实存在的差异或关联，统计上检测不到（即假阴性，Type II 错误），导致"无显著结果"，但并不代表"没有效果"，只是你的研究"没能力"发现它。

反过来，样本量过大也有代价：采集成本高，且会把微小的、无实际意义的差异也判为"显著"，反而误导决策。

因此在研究设计阶段（数据收集之前），就应当做先验样本量规划，而不是收完数据再"凑"样本量。审稿人和导师越来越重视这一点。

二、影响样本量的四大因素

1. 效应量（Effect Size）

效应量衡量"差异或关联在现实中有多大"，与样本量无关。效应量越小，需要的样本量越大才能检出。

效应量指标	适用场景	小	中	大
Cohen d	两组均值比较（t 检验）	0.2	0.5	0.8
r（相关系数）	相关分析	0.1	0.3	0.5
f（Cohen）	方差分析 ANOVA	0.1	0.25	0.4
f²（回归）	回归分析 R²	0.02	0.15	0.35
w	卡方检验	0.1	0.3	0.5

不确定预期效应量时，建议取"小效应"（更保守），计算出的样本量较大，研究更有保障。可参考领域内已发表的 meta 分析或相似研究来获取经验值。

2. 显著性水平 α（Type I 错误率）

α 是"没有差异却误判为有差异"的最大容许概率。社会科学惯例取 α = 0.05，医学临床常取 α = 0.01 或 0.001。

α 越小（标准越严），所需样本量越大。多重比较时需做 Bonferroni 校正，等效于降低 α，样本量同步增加。

3. 统计功效 Power（1 - β）

功效是"真实效应存在时，研究成功检测到它"的概率。学术惯例要求 Power ≥ 0.80（即 80% 的概率不漏掉真实效应）；高风险决策（如医学干预）建议 0.90 或更高。

Power 越高，所需样本量越大。Power = 0.80 与 Power = 0.90 相比，后者大约需要多 30%～40% 的样本。

4. 变异程度（标准差 / 方差）

数据越分散（标准差越大），差异越难检出，需要样本量越大。可参考预调研或已有同类数据估算标准差。问卷李克特量表的标准差通常在 0.8～1.5 之间（5 点量表）。

三、常见经验法则（快速参考）

当无法做精确功效分析时，以下领域惯例可作参考。注意：这些是经验下限，不代表"正好够用"。

分析方法	最低样本量	推荐样本量	说明
独立样本 t 检验	每组 ≥ 20	每组 ≥ 30	中效应 d=0.5、α=0.05、Power=0.80 约需每组 52 人
配对 t 检验	≥ 20 对	≥ 30 对	配对设计控制个体差异，效率更高，所需总人数更少
单因素 ANOVA	每组 ≥ 20	每组 ≥ 30	组数越多，总样本量需求越大；≥ 4 组建议事先做功效分析
多因素 ANOVA	每单元格 ≥ 10	每单元格 ≥ 20	单元格数 = 各因素水平数之积，注意组合爆炸
皮尔逊相关分析	≥ 30	≥ 50	中效应 r=0.3、α=0.05、Power=0.80 约需 84 人
线性回归（每个自变量）	10 倍	15～20 倍	例：5 个自变量，推荐 75～100 人；回归分析详细指南
逻辑回归（每个自变量）	10 倍	20 倍	且要求每个结局类别（如 0/1）均 ≥ 10 个样本
探索性因子分析（EFA）	题数 × 5	题数 × 10	绝对值不低于 100；KMO ≥ 0.7 间接反映样本充足；效度分析详细指南
验证性因子分析（CFA）	≥ 100	≥ 200	指标数越多、模型越复杂，要求越高
结构方程模型（SEM）	≥ 100	≥ 200～500	参数越多要求越高；复杂模型建议 N ≥ 自由参数数量 × 10
卡方检验	每单元格期望频数 ≥ 5	每格 ≥ 10	期望频数不足时改用 Fisher 精确检验
问卷调研（横截面）	≥ 100	≥ 200～300	若含亚组分析，每个亚组不低于 30；问卷分析全流程

注意：上表中"每个自变量 10 倍"规则，虽广泛流传，但已有研究（Vittinghoff & McCulloch, 2007 等）证明该规则过于保守或不足，仅作快速入门参考。正式研究应以功效分析为准。

四、怎么精确估算：功效分析（Power Analysis）

功效分析是样本量规划的正统方法，逻辑是：给定效应量、α、目标 Power 三个参数，推算所需的 n。

G*Power——最常用的免费工具

G*Power（Faul et al., 2007）是学术界公认的功效分析标准软件，覆盖 t 检验、ANOVA、回归、相关、卡方等主流方法，免费下载，操作界面友好。使用步骤：

选择 Test family（如 t tests）和 Statistical test（如 Means: Difference between two independent means）
选择 A priori（先验）类型，输入 Effect size、α（通常 0.05）、Power（通常 0.80）
点击 Calculate，得到所需样本量 N

在论文方法部分，引用格式示例："采用 G*Power 3.1 进行先验功效分析（Faul et al., 2007），设定效应量 d = 0.5、α = 0.05、Power = 0.80，计算得每组所需样本量为 52，共 104 人。"

在线替代工具

若不便安装软件，可在 ChatSPS（即 chatspss.cn）的对话框直接输入："帮我做功效分析，t 检验，中等效应量 d=0.5，α=0.05，功效 0.80，要多大样本量？"即可获得即时计算与解读。

五、各方法经验样本量速查表（论文常见场景）

以下数值基于中效应、α = 0.05、Power = 0.80的功效分析结果，适合社会科学、管理学、心理学等领域参考：

研究场景	推荐方法	建议总样本量
两组均值比较（中效应 d=0.5）	独立 t 检验	约 104 人（每组 52）
三组均值比较（中效应 f=0.25）	单因素 ANOVA	约 159 人（每组 53）
4 组均值比较（中效应 f=0.25）	单因素 ANOVA	约 212 人（每组 53）
配对前后测（中效应 d=0.5）	配对 t 检验	约 34 对
两变量相关（中效应 r=0.3）	皮尔逊相关	约 84 人
回归（5 个自变量，R²=0.15）	线性回归	约 92 人（经验：75～100）
二元逻辑回归（5 个自变量）	逻辑回归	约 100 人（每个事件类别 ≥ 10）
量表信效度（20 题 EFA）	探索性因子分析	约 200 人（题数 × 10）
问卷横截面调研（3 亚组）	描述 + 组间检验	约 150～300 人
简单中介模型（Bootstrap）	PROCESS Model 4	约 200～300 人

六、样本量不足时的补救策略

1. 采用非参数检验

当样本量小（< 30 / 每组）且不满足正态分布时，可换用对应的非参数替代方法：

独立 t 检验 → Mann-Whitney U 检验
配对 t 检验 → Wilcoxon 符号秩检验
单因素 ANOVA → Kruskal-Wallis 检验

了解更多：参见 P 值解读与显著性判断。

2. 报告效应量（弥补显著性不足）

即使 p 值不显著，如果效应量（如 Cohen d、eta²）数值可观，可在论文中诚实报告，指出"统计功效不足，但效应量方向一致，具有探索性意义，建议后续大样本验证"。

3. 增大效应量（设计层面）

使用配对设计代替独立组设计，控制个体差异，等效提高效应量
增加实验干预的强度或持续时间
使用更可靠的测量工具（高信效度量表），减少测量误差
控制协变量（ANCOVA），降低误差方差

4. 在局限性中如实说明

论文局限性的规范写法："本研究样本量为 N = 68，基于 G*Power 计算，统计功效约为 0.62（中效应假设下），低于 0.80 的推荐标准，存在 II 型错误风险，结果宜作为探索性发现，需后续更大样本研究验证。"

七、常见问题 FAQ

Q：样本量越大越好吗？

不一定。样本量越大，统计功效越高，越容易检出差异，但也越容易把微小的、无实际意义的差异判为"显著"。例如 10 000 人的调查里，两组均值差 0.01 分也可能 p < 0.05，但这个差异在现实中毫无意义。因此，样本量要"够用"而非"越多越好"，关键是结合效应量来判断实际意义。

Q：样本量不够能发论文吗？

可以发，但需要如实报告局限性。做法是：在局限性章节说明样本量较小、统计功效不足，结果宜作为探索性发现，需后续大样本验证。同时可考虑使用非参数检验（对小样本更稳健）、充分报告效应量，以及做功效分析说明已达到的检验力水平。

Q：预调研（预测试）需要多少人？

预调研的目的是测试问卷语义清晰度、检验信效度初步指标，通常 30～50 人即可。主要看 Cronbach α（目标 > 0.7）、题项删除后 α 变化、各题均值分布、被试完成时间等。预调研数据通常不并入正式样本。

Q：网络问卷回收率低，怎么估算要发多少份？

用公式：需发出份数 = 目标有效样本量 ÷ 预期回收率。网络问卷一般回收率为 20%～50%（学生样本较高，陌生人群体较低）。例如目标 200 份有效样本、回收率 30%，则需发出约 667 份。建议在目标量基础上再增加 10%～20% 缓冲以应对质量筛除。

Q：效应量是什么？怎么确定预期效应量？

效应量（Effect Size）衡量"差异或关联在现实中有多大"，与样本量无关。确定预期效应量的方法：① 参考同领域已发表文献的效应量报告（首选）；② 若无文献参考，按 Cohen（1988）经验标准取小效应（更保守），所得样本量更大，安全性更高；③ 做预调研，估算初步效应量后再规划正式样本。

Q：因子分析样本量有没有最低限制？

有。主流共识：(1) 绝对值至少 100 人，200 人较理想；(2) 样本量与题项数之比（N:p）至少 5:1，建议 10:1；(3) KMO 值须 ≥ 0.7（间接反映样本充足性）。样本量不足会导致因子结构不稳定，难以在另一批数据中复现。详见效度分析（EFA/KMO/因子分析）。

八、相关方法页

样本量规划与以下统计分析方法紧密相关，点击了解详情：

用 chatspss 直接跑统计分析

不用再手动算样本量——上传数据后，chatspss 会自动完成 t 检验、ANOVA、回归、因子分析等，并给出效应量与功效说明，输出符合论文规范的三线表与解读报告。

立即免费体验 chatspss