第四章:多元统计量及抽样分布¶
概览¶
一段话总结¶
文档为《第04章-多元统计量及抽样分布》内容,主要介绍多元统计分析中多元样本与常见统计量,如中心化数据阵、样本离差阵等,重点阐述多元正态总体下三大抽样分布(Wishart分布、Hotelling \(T^{2}\) 分布、Wilks \(Λ\) 统计量),它们由一元统计的\(\chi^{2}\)、t、F分布推广而来,是区间估计和假设检验的基础,还提及相关定理及在SPSS中计算样本均值向量、协差阵的步骤。
思维导图¶
¶
详细总结¶
一、多元样本和常见统计量¶
- 多元样本:p个变量的n次观测数据。
- 常见统计量
- 中心化数据阵:\(a_{i j}=\sum_{\alpha=1}^{n}\left(X_{\alpha i}-\overline{X}_{i}\right)\left(X_{\alpha j}-\overline{X}_{j}\right)\)。
- 样本离差阵A:即中心化数据阵。
二、抽样分布和相关定理¶
- 一元统计三大抽样分布:\(\chi^{2}\)分布、t分布、F分布。
- 多元统计三大抽样分布
- Wishart分布
- 1928年Wishart论文实现重要突破。
- 由\(\chi^{2}\)分布推广而来,设总体\(X ~ N_{p}(0, \sum )\),随机阵\(W ~ W_{p}(n, \sum )\)。
- Hotelling \(T^{2}\)分布
- 推广自一元t分布,设总体\(X ~ N_{p}(0, \sum )\),随机阵\(W ~ W_{p}(n, \sum )\),X与W独立,\(T^{2}=n X' W^{-1}X\)。
- 非中心情况:若\(X~N_p(μ,Σ)\)(\(μ≠0\)),\(T^{2} ~ T^{2}(p, n, μ)\)。
- 与F分布关系:若\(T^{2} ~ T^{2}(p, n)\),则\(\frac{n-p+1}{n p} T^{2} ~ F(p, n-p+1)\)。
- Wilks \(Λ\)统计量
- 一元F统计量在多元下的推广,涉及广义方差(常用协方差矩阵行列式)。
- 特殊情况可化为F统计量,其他情况可用\(\chi^{2}\)或F分布近似。
- Wishart分布
- 相关定理:Cochran定理,涉及独立标准正态变量的平方和分解。
三、SPSS软件操作¶
- 计算样本均值向量
- 步骤:Analyze→Descriptive Statistics→Descriptives,选择变量,在Options中选Mean。
- 示例结果:如变量x1均值50,x2均值4。
- 计算样本协差阵
- 步骤:Analyze→Correlate→Bivariate,选择变量,在Options中选Cross-product deviations and covariances。
- 示例结果:样本离差阵A和样本协差阵S(\(S=A/(n-1)\)),如x1离差平方和136,x1与x2交叉乘积和-6,协方差-2和0.667。
关键问题¶
- 问题:多元统计中的三大抽样分布与一元统计的三大抽样分布有何联系?
- 答案:多元统计的Wishart分布由一元\(\chi^{2}\)分布推广而来,Hotelling \(T^{2}\)分布由一元t分布推广而来,Wilks \(Λ\)统计量与一元F分布相关,它们都是一元分布在多元正态总体下的扩展,是多元统计区间估计和假设检验的基础。
- 问题:Hotelling \(T^{2}\)分布与F分布有怎样的具体关系?
- 答案:若\(T^{2} ~ T^{2}(p, n)\),则\(\frac{n-p+1}{n p} T^{2} ~ F(p, n-p+1)\),通过该关系可将\(T^{2}\)分布转化为F分布进行统计推断。
- 问题:在SPSS中如何计算样本协差阵?
- 答案:在SPSS中,选择菜单项Analyze→Correlate→Bivariate,将变量移入Variables列表框,单击Options按钮,选择Cross-product deviations and covariances复选框,单击OK按钮,结果中Covariance即为样本协差阵,且样本协差阵是样本离差阵A除以(n-1)。
4.1 多元样本和常见统计量¶
一、多元样本的定义¶
多元样本指对p个变量进行n次观测得到的数据集合。例如,当p=2(如身高、体重),n=100时,多元样本即为100组包含身高和体重的观测数据🔶1-15。
二、常见统计量及计算方法¶
1. 中心化数据阵¶
- 定义:用于刻画数据相对于均值的偏差程度,矩阵元素由各变量观测值与均值的偏差乘积之和构成。
- 计算公式:
[ a_{i j}=\sum_{\alpha=1}^{n}\left(X_{\alpha i}-\overline{X}{i}\right)\left(X\right) ]}-\overline{X}_{j
其中,\(X_{\alpha i}\)表示第\(\alpha\)次观测中第\(i\)个变量的值,\(\overline{X}_{i}\)为第\(i\)个变量的样本均值。
2. 样本离差阵A¶
- 定义:即中心化数据阵,是描述多元数据离散程度的核心矩阵1-21🔷。
三、求解方法与实例¶
求解步骤:¶
- 计算各变量的样本均值\(\overline{X}_{i}\)。
- 对每个观测值,计算其与对应变量均值的偏差。
- 按公式计算中心化数据阵的元素\(a_{i j}\),构成样本离差阵A。
实例:¶
问题:设p=2(变量X1、X2),n=3次观测数据如下:
- 观测1:(X1=10, X2=5)
- 观测2:(X1=12, X2=6)
- 观测3:(X1=8, X2=4)
计算样本离差阵A。
解题步骤:
1. 计算样本均值:
- \(\overline{X}_{1} = \frac{10+12+8}{3} = 10\)
- \(\overline{X}_{2} = \frac{5+6+4}{3} = 5\)
- 计算偏差值:
- 对X1:各观测偏差为 \(10-10=0\),\(12-10=2\),\(8-10=-2\)
-
对X2:各观测偏差为 \(5-5=0\),\(6-5=1\),\(4-5=-1\)
-
计算中心化数据阵元素:
- \(a_{11} = \sum(X_{\alpha1}-\overline{X}_1)^2 = 0^2 + 2^2 + (-2)^2 = 8\)
- \(a_{12} = a_{21} = \sum(X_{\alpha1}-\overline{X}_1)(X_{\alpha2}-\overline{X}_2) = 0×0 + 2×1 + (-2)×(-1) = 0 + 2 + 2 = 4\)
-
\(a_{22} = \sum(X_{\alpha2}-\overline{X}_2)^2 = 0^2 + 1^2 + (-1)^2 = 2\)
-
构造样本离差阵A:
[ A = \begin{pmatrix} 8 & 4 \ 4 & 2 \end{pmatrix} ]
四、关键要点总结¶
- 多元样本是多元统计分析的基础数据结构,通过中心化处理可消除均值影响,聚焦数据离散特征。
- 样本离差阵A直接反映各变量内部及变量间的离散程度与相关性,其元素\(a_{i j}\)刻画了第\(i\)个变量与第\(j\)个变量的协变关系🔶1-17。
- 实际应用中,常通过矩阵运算或统计软件(如SPSS)快速计算离差阵,为后续方差分析、相关性分析等提供基础。
4.2 抽样分布和相关定理¶
一、一元与多元抽样分布的关联¶
1. 一元统计三大抽样分布¶
- χ²分布:若\(X_1,X_2,\dots,X_n \sim N(0,1)\)独立,则\(\chi^2 = X_1^2 + X_2^2 + \dots + X_n^2 \sim \chi^2(n)\)。
- t分布:若\(X \sim N(0,1)\),\(Y \sim \chi^2(n)\)独立,则\(t = \frac{X}{\sqrt{Y/n}} \sim t(n)\)。
- F分布:若\(X \sim \chi^2(n)\),\(Y \sim \chi^2(m)\)独立,则\(F = \frac{X/n}{Y/m} \sim F(n,m)\)。
2. 多元统计三大抽样分布(推广自一元分布)¶
- Wishart分布(\(W_p(n, \Sigma)\)):多元χ²分布的推广,用于描述样本协差阵的分布。
- Hotelling \(T^2\)分布(\(T^2(p, n)\)):多元t分布的推广,用于检验多元均值差异。
- Wilks Λ统计量(\(\Lambda(p, n_1, n_2)\)):多元F分布的推广,用于多变量方差分析。
二、多元抽样分布详细解析¶
1. Wishart分布¶
- 定义:设\(X_1,X_2,\dots,X_n \sim N_p(0, \Sigma)\)独立,则Wishart分布统计量为\(W = \sum_{i=1}^n X_iX_i' \sim W_p(n, \Sigma)\)。
- 性质:当\(p=1\)时,\(W_1(n, \sigma^2) = \sigma^2\chi^2(n)\),退化为一元χ²分布。
2. Hotelling \(T^2\)分布¶
- 定义:设\(X \sim N_p(0, \Sigma)\),\(W \sim W_p(n, \Sigma)\)独立,则\(T^2 = nX'W^{-1}X \sim T^2(p, n)\)。
- 与F分布的关系:\(\frac{n-p+1}{np}T^2 \sim F(p, n-p+1)\),可通过F分布查表进行统计推断。
- 非中心情况:若\(X \sim N_p(\mu, \Sigma)\),则\(T^2 \sim T^2(p, n, \mu)\)(非中心Hotelling \(T^2\)分布)。
3. Wilks Λ统计量¶
- 定义:设\(A \sim W_p(n_1, \Sigma)\),\(B \sim W_p(n_2, \Sigma)\)独立,则\(\Lambda = \frac{|A|}{|A+B|}\),其中\(|A|\)表示矩阵A的行列式。
- 性质:当\(p=1\)时,\(\Lambda = \frac{A}{A+B} \sim \frac{1}{1+F}\),与F分布相关。
- 近似分布:当\(p\)和\(n_2\)不满足特殊情况时,可用\(\chi^2\)或F分布近似。
三、相关定理¶
1. Cochran定理¶
- 内容:若\(X_1,X_2,\dots,X_n \sim N(0,1)\)独立,\(X = (X_1,\dots,X_n)'\),则\(X'X = \sum_{i=1}^k X_iX_i'\),其中各\(X_iX_i'\)为独立的二次型。
- 应用:用于证明Wishart分布的可加性和独立性。
四、求解方法与实例¶
1. Hotelling \(T^2\)统计量计算实例¶
问题:设\(p=2\),样本均值向量\(\overline{X} = (50, 4)\),样本离差阵\(A = \begin{pmatrix}136 & -6 \\ -6 & 2\end{pmatrix}\),总体均值\(\mu = (45, 3)\),计算\(T^2\)统计量并检验均值差异。
解题步骤:
1. 计算样本协差阵:\(S = \frac{A}{n-1}\),假设\(n=4\),则\(S = \frac{1}{3}\begin{pmatrix}136 & -6 \\ -6 & 2\end{pmatrix} = \begin{pmatrix}45.33 & -2 \\ -2 & 0.67\end{pmatrix}\)。
2. 构造\(T^2\)统计量:
[
T^2 = n(\overline{X} - \mu)'S^{-1}(\overline{X} - \mu)
]
- 计算均值差:\(\overline{X} - \mu = (50-45, 4-3) = (5, 1)\)
- 计算\(S^{-1}\):
[
S = \begin{pmatrix}45.33 & -2 \ -2 & 0.67\end{pmatrix}, \quad S^{-1} = \frac{1}{45.33×0.67 - (-2)^2}\begin{pmatrix}0.67 & 2 \ 2 & 45.33\end{pmatrix} \approx \begin{pmatrix}0.023 & 0.69 \ 0.69 & 15.63\end{pmatrix}
]
- 代入计算:
[
T^2 = 4 \times (5, 1) \begin{pmatrix}0.023 & 0.69 \ 0.69 & 15.63\end{pmatrix} \begin{pmatrix}5 \ 1\end{pmatrix}
]
[
= 4 \times [5×0.023 + 1×0.69, \, 5×0.69 + 1×15.63] \begin{pmatrix}5 \ 1\end{pmatrix}
]
[
= 4 \times [0.115 + 0.69, \, 3.45 + 15.63] \begin{pmatrix}5 \ 1\end{pmatrix}
]
[
= 4 \times (0.805, 19.08) \begin{pmatrix}5 \ 1\end{pmatrix} = 4 \times (0.805×5 + 19.08×1) = 4 \times (4.025 + 19.08) = 4 \times 23.105 = 92.42
]
3. 转化为F分布:
[
\frac{n-p+1}{np}T^2 = \frac{4-2+1}{4×2}×92.42 = \frac{3}{8}×92.42 \approx 34.66 \sim F(2, 4-2+1)=F(2,3)
]
4. 统计推断:查F分布表,\(F_{0.05}(2,3)=9.55\),由于34.66 > 9.55,拒绝原假设,认为总体均值存在显著差异。
2. Wilks Λ统计量应用实例¶
问题:设\(p=1\),\(A \sim \chi^2(10)\),\(B \sim \chi^2(5)\),计算\(\Lambda = \frac{A}{A+B}\)并转化为F分布。
解题步骤:
1. 计算Λ统计量:\(\Lambda = \frac{A}{A+B} = \frac{1}{1+B/A}\)
2. 与F分布关联:当\(p=1\)时,\(\frac{1-\Lambda}{\Lambda} \cdot \frac{n_2}{n_1} = \frac{B/A}{1} \cdot \frac{5}{10} = \frac{B/5}{A/10} \sim F(5,10)\)。
3. 统计推断:若\(\Lambda=0.6\),则\(\frac{1-0.6}{0.6} \cdot \frac{5}{10} = \frac{0.4}{0.6} \cdot 0.5 = 0.333 \sim F(5,10)\),查F分布表进行显著性检验。
五、关键要点总结¶
- 多元抽样分布是一元分布的高维推广,Wishart分布是样本协差阵的理论基础,Hotelling \(T^2\)分布用于多元均值检验,Wilks Λ统计量用于多变量方差分析。
- 三大分布可通过Cochran定理和矩阵运算与一元分布建立联系,实际应用中常转化为F分布或χ²分布进行推断。
- 求解多元统计量时,需注意矩阵求逆、行列式计算等操作,复杂问题可借助SPSS等软件实现。