ガウス＝マルコフの定理

回帰分析
統計学

モデル
線形回帰線形単回帰（英語版）多項式回帰一般線形モデル
一般化線形モデル離散選択（英語版）ロジスティック回帰多項ロジット（英語版）混合ロジット（英語版）プロビット（英語版）多項プロビット（英語版）順序ロジット（英語版）順序プロビット（英語版）ポアソン（英語版）
多水準モデル（英語版）固定効果（英語版）変量効果混合モデル
非線形回帰ノンパラメトリック（英語版）セミパラメトリック（英語版）ロバスト（英語版）分位点（英語版）等調（英語版）主成分（英語版）最小角度（英語版）局所折れ線（英語版）
変数誤差（英語版）
推定
最小二乗法線形（英語版）非線形
普通（英語版）加重（英語版）一般化（英語版）
部分総最小二乗法（英語版）非負（英語版）リッジ回帰正則化（英語版）
最小絶対偏差（英語版）繰返し加重（英語版）ベイズ（英語版）ベイズ多変量（英語版）
背景
回帰検証（英語版）平均応答と予測応答（英語版）誤差と残差適合度（英語版）スチューデント化残差ガウス＝マルコフの定理
表話編歴

ガウス=マルコフの定理（ガウス＝マルコフのていり）とは、あるパラメタを観測値の線形結合で推定するとき残差を最小にするように最小二乗法で求めた推定量が、最良線形不偏推定量になることを保証する定理である。カール・フリードリヒ・ガウスとアンドレイ・マルコフによって示された。

線形回帰モデルと最小二乗推定量

線形回帰モデルとして目的変数 Y とp 個の説明変数 X_i, i = 1, ..., p および誤差項 $\varepsilon _{k}$ の関係を以下のようにモデル化したものを考える。

Y_{k}=\beta _{0}+\beta _{1}X_{1}+\beta _{2}X_{2}+\cdots +\beta _{p}X_{p}+\varepsilon _{k},\ k=1,\dots ,n.

目的変数と説明変数の測定結果の組 (y_k; x_k,1,...,x_k,p) を1つのデータとし、n( ≥ p) 個のデータを用いて残差の平方和

\sum _{k=1}^{n}\left\{y_{i}-(\beta _{0}+\beta _{1}x_{i,1}+\beta _{2}x_{i,2}+\cdots +\beta _{p}x_{i,p})\right\}^{2}

が最小になる $(\beta _{0},\beta _{1},\cdots ,\beta _{p})$ を最小二乗推定量と呼ぶ。ここで

\mathbf {Y} ={\begin{bmatrix}Y_{1}\\Y_{2}\\\vdots \\Y_{n}\end{bmatrix}},\ \mathbf {X} ={\begin{bmatrix}1&x_{11}&x_{12}&\dots &x_{1p}\\1&x_{21}&x_{22}&\dots &x_{2p}\\\vdots &\vdots &\vdots &&\vdots \\1&x_{n1}&x_{n2}&\dots &x_{np}\end{bmatrix}},\ {\boldsymbol {\beta }}={\begin{bmatrix}\beta _{0}\\\beta _{1}\\\vdots \\\beta _{p}\end{bmatrix}},\ {\boldsymbol {\varepsilon }}={\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{bmatrix}}

と置くと線形回帰モデルは

\mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}

とかけ、最小二乗推定量 ${\widehat {\boldsymbol {\beta }}}$ は

{\widehat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {Y}

で与えられる。なお、上付き添字 $\top$ は転置行列を表す。

ガウス・マルコフの定理

仮定

誤差項 ${\boldsymbol {\varepsilon }}$ について

$E[{\boldsymbol {\varepsilon }}]=0$ （不偏性）
$\operatorname {Cov} [{\boldsymbol {\varepsilon }}]=\sigma ^{2}{\boldsymbol {I}}$ （等分散性・無相関性）

を仮定する。ここで ${\boldsymbol {I}}$ は単位行列を表す。

無相関性は独立性よりも弱い仮定であり、また正規分布など特定の分布に従うことを仮定していない。

定理の内容

最小二乗推定量 ${\widehat {\boldsymbol {\beta }}}$ は最良線形不偏推定量になる。つまり任意の線形不偏推定量 ${\widetilde {\boldsymbol {\beta }}}$ に対して

\operatorname {Cov} \left[{\widetilde {\boldsymbol {\beta }}}\right]\succeq \operatorname {Cov} \left[{\widehat {\boldsymbol {\beta }}}\right]

が成立する。

証明

${\widetilde {\boldsymbol {\beta }}}$ は線形推定量なので $(p+1)$ 行 $n$ 列の行列 $\mathbf {C}$ を用いて ${\widetilde {\boldsymbol {\beta }}}=\mathbf {C} \mathbf {Y}$ とかける。 ${\widetilde {\boldsymbol {\beta }}}$ が不偏性を持つための条件を求めると $E[{\widetilde {\boldsymbol {\beta }}}]=\mathbf {C} \mathbf {X} {\boldsymbol {\beta }}={\boldsymbol {\beta }}$ が恒等的に成立することから $\mathbf {C} \mathbf {X} =\mathbf {I}$ である。

次に ${\widetilde {\boldsymbol {\beta }}}$ の分散共分散行列を整理すると

{\begin{alignedat}{2}\operatorname {Cov} \left[{\widetilde {\boldsymbol {\beta }}}\right]&=E\left[(\mathbf {C} \mathbf {Y} -{\boldsymbol {\beta }})(\mathbf {C} \mathbf {Y} -{\boldsymbol {\beta }})^{\top }\right]\\&=E\left[\mathbf {C} {\boldsymbol {\varepsilon }}(\mathbf {C} {\boldsymbol {\varepsilon }})^{\top }\right]\\&=\mathbf {C} E[{\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top }]\mathbf {C} ^{T}\\&=\sigma ^{2}\mathbf {C} \mathbf {C} ^{\top }\end{alignedat}}

になる。ここで ${\hat {\mathbf {C} }}=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }$ とした時の推定量が最小二乗推定量 ${\widehat {\boldsymbol {\beta }}}$ になるので $\mathbf {C} \mathbf {C} ^{\top }\succeq {\hat {\mathbf {C} }}{\hat {\mathbf {C} }}^{\top }$ を示せばよい。不偏性より $\mathbf {C} \mathbf {X} =\mathbf {I}$ なので