多次元尺度構成法

複数の変数を持つ多次元データは身の回りにあふれていて、それらのデータの分布を視覚的に把握したいというニーズがある。
データの分布を視覚的に把握するには、2次元の平面上に各データがマッピングされることが望ましい。
場合によっては3次元空間にマッピングするのでもいいけど、いずれにしてもデータの次元を2または3に減らす必要がある。

多次元のデータを、その特徴をなるべく維持しつつ次元を落とす方法としては「主成分分析」が一般的に用いられる。

ところで、データ群の中から2つのデータをとりあげたときに、その2つのデータ間の「距離」だけが情報として与えられる場合、このデータ間の関係を視覚化するには、どのような方法があるだろうか。
その1つとして「多次元尺度構成法」がある。

これは、「2つのデータ間の距離」の関係を維持しながら、各データを2次元平面にマッピングする方法だ。
元のデータが多次元である場合でも、ある2点間の距離が離れているのであれば、2次元平面の離れた位置に配置され、2点間の距離が近いのであれば、2次元平面の近い位置に配置される。
性質の似たもの同士が近くに配置された分布図を作ることができる。

ただし、「距離」だけを参考にしているため、得られる分布図は平行移動および回転、反転に対する自由度がある。一般的にはデータの平均が原点に来るようにするが、回転・反転の自由度は残る。

このようなマッピングをどのように実現するかの数学的な解説は次のブログに詳しい説明がある。

多次元尺度構成法イントロダクション - kohta blog

多変量解析のはなし―複雑さから本質を探る (Best selected Business Books)

多変量解析のはなし―複雑さから本質を探る (Best selected Business Books)

図解でわかる多変量解析―データの山から本質を見抜く科学的分析ツール

図解でわかる多変量解析―データの山から本質を見抜く科学的分析ツール