分散共分散行列

まずは復習。
分散とは「各データが平均値からどれだけ離れているか」という、データの散らばり具合を表す。

具体的には、分散は「(各データの平均値からの距離)の2乗の平均」
分散は2乗であることに注意。単位をそろえるために、分散の平方根を取ったものが標準偏差

標準偏差をσで表すと、分散はσ^2で表される。

式で表すと次のようになる。


ここで、次のようなベクトルを導入する。(なぜ? あとで値を複数持つデータに拡張するのに便利だから)

すると、さきほどの分散の式は、次のような縦ベクトルと横ベクトルの積の形で書くことができる。
(’は転置を表す)


これまでの話で、たとえば、数学のテストの点数がどれくら散らばっているか、ということを知ることができる。

ここで、英語のテストも行った場合、数学と英語の点数の関係を知りたい、という場合には、複数のデータ群を扱う必要がある。

例えば、生徒の「数学の点数」と「英語の点数」がどのような関係にあるか知りたい。数学ができる生徒はやはり英語ができるのか?(正の相関)、それとも数学ができる生徒は英語が苦手なのか(負の相関)。

そこで、数学の点数(xの値)と英語の点数(yの値)という、2つのデータ群を考慮した分散を「共分散」と呼び、この共分散Sxyは次の式で表される。

受験生に対して、「数学の出来具合(数学の点数-数学の平均点)」と「英語の出来具合(英語の点数-英語の平均点)」を掛け合わせた値、の平均を求めている。これが、数学の点と英語の点の共分散で、2つの科目の点の関係を表す1つの指標となる。数学が得意な生徒は英語も得意で、数学が苦手な生徒はやっぱり英語もダメ、という場合には正の値になる。数学が得意だと英語が苦手という傾向がある場合には負の値になる。

式の形から、「xの分散」は「xとxの共分散」と同じなのでSxxと表す。
同様に、「yの分散」は「yとyの共分散」と同じなので Syyで表す。

すると、本エントリのタイトルである「分散共分散行列」が次のように表される。

これは見た通り、要素が実数で対称な行列なので「実対称行列」の形をしている。

変数が3つの場合(例:数学と英語と物理のテストの点がある)、次のような3x3の行列で表される。


それぞれのデータに対して、「データから平均値を引いて、標準偏差で割る」という操作(基準化)をすると、この分散共分散行列の対角成分がすべて1になる(元のデータに固有の平均値や標準偏差の大きさに影響されなくなる)。

このようにして得られた行列を「相関行列」と呼ぶ。

この相関行列により、各データ群の間の相関係数を知ることができる。
相関係数は、最大で1。値が1に近いほど相関が大きい。

マンガでわかる統計学

マンガでわかる統計学

マンガでわかる統計学 回帰分析編

マンガでわかる統計学 回帰分析編