6 多次元データの主成分分析
次はデータ解析で用いられる主成分分析を紹介する。
例えば、個々の学生の複数科目の成績や学習時間のデータのように、
1 つのデータに複数の情報がついている多次元データについて、
その傾向を知るためや、データの次元の低減化などのために
「主成分分析」という手法が用いられることがある。
2 次元データの場合の回帰直線に多少似たところもある。
今、
個の
次元データ
を考える。各
行データ
(
) の
標本平均を
, 標本分散を
とすると、
となり、これにより各
を正規化した値を
とする。これにより、
は
に関する標本平均が 0、
標本分散が 1 となり、
次元データ
の各行は「同じような大きさ」のデータとなる。
それに対し、
を位置ベクトルとする
次元空間の
点
の散布図に対し、
データが最も長く伸びている方向 (回帰直線のようなもの) を
探すのが主成分分析である。
具体的には、
の任意の単位ベクトル
に対して、
このデータの
方向への正射影
(内積) の標本分散
が最大となる方向
を求めることが
目標となる。
(
) の平均は、
なので、標本分散
は、
(12)
となる。
なお、原点を通る
方向の直線
に
から
引いた垂線の足を
とすると (図 5)、
なので、
は
が直角の
直角三角形なので、
となり、
は
なので、
を最大にするような方向
は、
と
との距離の平方和
を最小にする方向、という風に見ることもでき、
2 次元データに対する回帰直線に似たものになる。
ただし回帰直線は、データ点から回帰直線までの距離ではなく、
データ点と
方向の回帰直線までの距離を考えるので、
実際には
は回帰直線とは少し違うものになる (cf.[1])。
さて、(12) の内積の平方は、行列と見て、
と書けるので、
は、
(13)
となり、さらにこの
は、
となり、
は
の
行と
行のデータの
標本共分散
であるから、
は
行と
行の相関係数、
すなわち
は
の各行に関する相関行列になる。
は対称行列であり、よって
は
個の実数の固有値
および正規直交基底をなす固有ベクトル
を
持ち、
は直交行列で、
となる。よって、
(
) とすると、
となる。
は任意の
に対して 0 以上
だから
で、
は直交行列だから
なので、(14) より
の
最大値は
で、
、
すなわち
のときにその最大値を取る。
つまり最大固有値に対する固有ベクトル
が主成分方向となる。
は、それに垂直な第 2 主成分方向となり、以下同様となる。
つまり、軸を
で考えれば、
最初のいくつかの軸にデータの傾向が顕著に現れ、
最後の軸の方ではデータ毎の違いが小さくなっている。
そのため、最初のいくつかの軸成分のみを取ることで
データの傾向をあまり変えずにデータの次元を削減することができるようになる。
竹野茂治@新潟工科大学
2024-02-29