ランダムフォレストとは、「決定木」と呼ばれる予測モデルを複数組み合わせたアンサンブル モデルであり、教師付き機械学習のアルゴリズムの一種です。回帰を行う場合は、各決定木の平均値を予測値として扱い、分類を行う際は、多数決で分類結果を出力します。質的な変数も多く組み込むことができます。

ArcGIS では、Leo Breiman のランダム フォレスト アルゴリズムを転用してモデルを作成し、予測を生成します。

アルゴリズムの概要

1.トレーニング データをランダムに抽出したデータから、何百ものツリー(決定木のアンサンブル)を作成
2.各ツリーで予測が生成され、結果への投票を実施
3.各投票をもとに最終的な結果を生成(分類を行う際は多数決で結果を決定し、回帰の場合は平均値が採用されます。)

上記のように、予測用にフォレスト内の複数ツリーを組み合わせることで、単一ツリーに関する過剰適合(過学習)の問題に対処し、安定したモデルを構築することができます。

 

関連リンク

本記事では以下の製品・データを利用しています。