マハラノビス距離
マハラノビス距離(英:Mahalanobis' distance)とは、統計学で用いられる距離の一つ。
多変数間の相関に基づく距離であり、多変量解析に用いられる。
定義
ある集団内の点が多変数ベクトル
\( \displaystyle (x_{1},x_{2},x_{3},\dots ,x_{p}) \) で表されるとき、
その集団の変数ごとの平均値を
\( \displaystyle \mu =(\mu _{1},\mu _{2},\mu _{3},\dots ,\mu _{p}) \) と表し、
分散共分散行列を
\( \displaystyle \Sigma \) とすれば、
ある点
\( \displaystyle x=(x_{1},x_{2},x_{3},\dots ,x_{p}) \)からの集団へのマハラノビス距離は以下のように定義される。
$$ \displaystyle D_{M}(x)={\sqrt {(x-\mu )^{\intercal }\Sigma ^{-1}(x-\mu )}} $$
概要
下図のようなデータ分布を考える。
この場合、図中の距離 a,b,c は同距離であるといえるだろうか?
距離の定義をユークリッド距離とした場合、a,b,c は同距離である。
しかしながら、上図のデータ分布形状は右上に傾いた楕円となっており、
かつ分布の中心ほどデータが密に分布している(二変量正規分布=楕円分布)。
定義にて示したように、
マハラノビス距離の算出においては、多変量空間において平均値を引き、さらに分散共分散行列の逆行列をかけている。
これはすなわち多変量変数における正規化である。
上図で言えば、楕円に歪んでいたデータ分布を、原点を中心とする正規分布に変換する処理を施した上で距離を算出することに等しい。
以上にように、データ分布の歪みを考慮し、多変量空間で正規化をおこなった射影空間上で距離を算する、それがマハラノビス距離である。