ストラテジ系 / 企業活動
外れ値・異常値・欠損値の処理
分析前に、極端な値、不自然な値、未入力の値を確認し、補正・除外・補完する前処理です。
もう少し詳しく
外れ値は他のデータから大きく離れた値、異常値は入力ミスや故障などで発生した不自然な値、欠損値は値が記録されていない状態です。これらを放置すると平均や予測モデルが歪みます。処理方法は機械的に削除するだけでなく、原因確認、代替値の補完、別カテゴリ化など目的に合わせて選びます。
試験での見方
例:年齢欄に999歳、売上欄に空白、センサ値に突然の極端な値があれば、入力ミスや欠測として扱い方を決めます。
データ分析では前処理が重要です。「平均が大きくずれる」「学習データの品質が悪い」という文脈で出やすいです。