主成分分析

主成分分析の手抜きな説明。

主成分分析とは、データ群に対して、もっとも個々の特徴を比べやすい評価軸を決定しましょう。というもの。

仮に、国語と算数のテストの点について、下のグラフのような分布が得られた場合、
国語はみんな同じような点数なので個々の特徴はほとんど無いけれど、算数の点はばらつきが大きいので、個々の特徴を表していると言える。
この場合は、算数の点が「主成分」と言うことができて、国語の点は無視してしまって構わない。
すると、個々を評価するための項目をたった1つに限定することができた。便利。

繰り返しになるけど、つまり主成分分析とは個々の特徴を比べやすい軸を決定しましょう。ということ。

じゃあ、もし下のグラフのような分布をしていたら?

そしたら、個々の特徴を比べやすいように、新しい軸を決定することになる。
赤い矢印で示すような軸を設けることで、やはり、たった1つの評価軸で個々の特徴を表すことができた。

そんなに都合よく直線状にデータが分布するとは限らない。
そのような場合は、評価に使える第2の軸を設けてあげることになる。これが第2主成分。


図では2次元の分布だったけれど、通常は10次元とか20次元とか100次元とかのデータになって、とても図では示せない。
主成分分析を行うことで、その10とか20とか100ある項目のうちで、どの項目が最も個々の特徴を示す項目と言えるのか判断することができるようになる。
また、それぞれの項目がどの程度、評価に影響しているか(寄与率)なんかもわかるので、2つの項目だけ見れば十分でしょう、とか5つくらいの項目を見ないと十分じゃないとか、そういう判断ができるようになる。

参考になる資料
ビジネス統計解析 第5章主成分分析
http://www.e.okayama-u.ac.jp/~nagahata/bstat/rta5syo.pdf

完全独習 統計学入門

完全独習 統計学入門