外れ値・異常値・欠損値
外れ値
外れ値(英:Outlier)は、他の値から大きく離れたデータ。
分析に影響があるため、外れ値は分析対象から除去するのが好ましい。
外れ値の検出方法には、標準偏差などの要約統計量を用いる方法、クラスター分析を用いる方法、 スミルノフ・グラブス検定などの検定を用いる方法など多くの方法が存在する。 それぞれの手法に一長一短があるため、データセットに応じて適切な方法を選択する必要がある。
異常値
異常値(英:Abnormal value)は、外れ値のなかでもその原因がわかっているもの。
測定ミスや、ノイズ混入など。
異常値は外れ値同様、分析対象から除去するのが好ましいが、
一方で「異常値検出」という異常値を検出することに価値のある分野もあり、やや特異な存在である。
欠損値
欠損値(英:Missing value)は、本来得られるはずだったデータが得られていない状態。
または、その状態を示す特殊な値。
欠損率が大きい場合、欠損値をどう扱うかで分析精度に大きな影響が発生する場合がある。
また、欠損率が小さめであっても、データ件数が少ない場合には影響が大きくなるため注意が必要である。