假设你想检验"男女顾客的满意度是否有差异",你得到男性均值 3.84、女性均值 3.62,差了 0.22 分。这个差异是真实存在的,还是只是抽样随机波动?
t 检验就是回答这个问题的工具。t 值的核心逻辑:
独立样本 t 检验:t = (均值1 - 均值2) / 合并标准误
单样本 t 检验:t = (样本均值 - 假设总体均值) / (标准差 / √n)
配对样本 t 检验:t = 差值均值 / (差值标准差 / √n)
直觉理解:如果每次抽样的差异都在 ±0.3 以内随机波动(噪声),然后你观察到差异是 0.22(信号),那 t 值就接近 0.22/0.3 ≈ 0.73,很小,说明你看到的差异淹没在噪声里——不显著。但如果随机波动只有 ±0.05(数据很稳定),0.22 ÷ 0.05 = 4.4,t 值很大——不太可能是偶然,显著。
这三个数总是成套出现,缺一不可:
量化"差异有多大(相对于随机波动)",绝对值越大越显著。正负表示方向,不影响显著性判断。
"在原假设(两组相等)为真时,出现这么大或更大 t 值的概率"。p < 0.05 → 显著。p 值是 t 值的概率翻译。
独立样本 t 检验:df = n1 + n2 - 2。配对样本:df = n - 1。df 越大,同样 t 值对应的 p 值越小。
给定 df,t 越大 p 越小;给定 t,df 越大 p 越小。判断显著性只需看 p 值;报告时 t 和 df 必须同时写出。
报告格式示例:
t(113) = 2.45,p = 0.016 → 括号内是自由度 113,等号后是 t 值,然后是 p 值
下表给出几种常见情况下 p = 0.05 对应的 t 临界值,感受一下为什么不能用固定数字判断:
| 自由度 df | p = 0.05 的 |t| 临界值 | p = 0.01 的 |t| 临界值 | 典型情形 |
|---|---|---|---|
| 10 | 2.228 | 3.169 | 小样本(每组约 6 人) |
| 30 | 2.042 | 2.750 | 小-中样本(两组各 16 人) |
| 60 | 2.000 | 2.660 | 中等样本(两组各 31 人) |
| 120 | 1.980 | 2.617 | 中等-大样本(两组各 61 人) |
| ∞(大样本近似) | 1.960 | 2.576 | n > 200 时通常可用正态近似 |
适用:两个独立分组比较均值差异(男 vs 女、实验组 vs 对照组)
df:n1 + n2 - 2
前提:正态性 + 方差齐性(Levene 检验)
方差不齐时:用 Welch's t(df 自动校正)
适用:同一批被试的前后测量,或配对设计(前后测、左右脚)
df:n - 1(n 为配对数)
前提:差值正态分布
优势:排除个体差异,效能更高
适用:检验样本均值是否等于某个已知的总体值(如满意度是否等于 3 分)
df:n - 1
前提:数据正态分布
场景:检验量表均值是否达到中点值
多元线性回归的系数表里,每个自变量旁边都有一个 t 值——这个 t 值检验的是:在控制了其他所有自变量之后,这个自变量的回归系数是否显著不等于 0?
回归 t 值 = 回归系数 B ÷ 系数的标准误(SE)。绝对值越大,说明该自变量对因变量的独立影响越显著。
服务满意度的 t = 4.56,p < 0.001 → 在控制价格和质量满意度后,服务满意度对整体满意度的正向影响显著。
价格满意度的 t = 1.82,p = 0.071 → 该影响不显著(p > 0.05),可能无独立贡献。
"比较男女两组顾客的整体满意度是否有显著差异,做独立样本 t 检验,先检验 Levene 方差齐性,输出 t 值、自由度、p 值、两组均值±标准差和 Cohen's d,生成三线表"
"对同一批顾客培训前后的满意度得分做配对样本 t 检验,输出 t 值、df、p 值、均值差和 Cohen's d"
正确:t 值受样本量影响。大样本下微小差异也能得到很大的 t 值。评价"差异有多大"应看效应量(Cohen's d),不是 t 值的绝对大小。
正确:t 值正负只反映差异方向(谁减谁),与显著性无关。判断显著性看 p 值或 t 值绝对值。t = -2.45 和 t = +2.45 显著性完全相同。
正确:多次 t 检验会使第 I 类错误(假阳性)膨胀。三组及以上必须用单因素方差分析(ANOVA),显著后再做事后多重比较(LSD / Bonferroni),不能用多个 t 检验替代。
正确:p > 0.05 只说明"在当前样本量下,差异不足以被统计检验到",不等于"两组完全没有差异"。可能是样本量不足导致检验效能(power)低,真实差异未被检测出来。
Q:t 值是什么意思?
t 值 = 观察到的差异 ÷ 差异的标准误(不确定性)。直觉上是"信号强度 ÷ 噪声水平",绝对值越大,差异越不像偶然产生的,p 值越小,结果越显著。
Q:t 值多大才算显著?有没有固定数字标准?
没有固定标准——t 值临界值随自由度变化。样本量大时 |t| > 1.96 约对应 p < 0.05,样本量小时需要更大的 t 值。实际判断直接看 p 值,p < 0.05 即显著。chatspss 会自动给出 t 值、df 和 p 值,无需手查临界值表。
Q:t 值和 p 值是什么关系?
配对关系:给定自由度,t 绝对值越大,p 越小。p 值是 t 值的概率翻译。判断显著性看 p 值,报告时 t(含 df)和 p 值必须同时写出,格式如 t(113) = 2.45,p = 0.016。
Q:独立样本 t 检验和配对样本 t 检验的 t 值含义一样吗?
含义相同(差异/标准误),但计算对象不同。独立样本比较两组均值差;配对样本比较差值均值是否为 0。配对设计效能更高(同等样本量下更容易显著),因为排除了个体间差异。
Q:t 值是负数,结果还算显著吗?
可以。t 值正负只表示均值差异方向,显著性取决于绝对值大小和 p 值。t = -2.45 与 t = +2.45 在同一 df 下显著性完全相同,p 值相同。
Q:回归分析结果里也有 t 值,和 t 检验里的 t 值是一回事吗?
原理相同(估计值/标准误),但检验的问题不同。回归里每个自变量的 t 值检验该系数是否显著不为零,即控制其他变量后该自变量是否有独立的显著贡献。绝对值越大越显著,判断同样看配套 p 值。
Q:用 chatspss 怎么做 t 检验?
上传数据后输入:比较男女两组在满意度得分上是否有显著差异,做独立样本 t 检验,先检验方差齐性,输出 t 值、自由度、p 值和两组均值标准差,生成三线表。系统自动完成 Levene 检验和 t 检验,无需手动操作。
上传数据,一句话告诉 chatspss 要做哪类 t 检验,t 值、p 值、效应量、三线表自动生成。
免费使用 chatspss无需安装 · 全程中文 · 自动前提检验 + 效应量