"RandomForest" (機械学習メソッド)

詳細とサブオプション

  • ランダムフォレストは,多くの決定木を構築することで動作する分類と回帰のためのアンサンブル学習メソッドである.フォレストの予測は最頻クラスあるいは平均値の木の予測を取ることで得られる.各決定木は訓練集合のランダムな部分集合について訓練され,特徴のランダムな部分集合だけを使う(ブートストラップ統合アルゴリズム).
  • 次は,使用可能なオプションである.
  • "DistributionSmoothing" 0.5正規化パラメータ
    "FeatureFraction" Automatic各木の訓練のためにランダムに選択される特徴の割合
    "LeafSize" Automatic各葉内の例の最大数
    "TreeNumber" Automaticフォレストの中にある木の本数
  • "FeatureFraction""LeafSize""DistributionSmoothing"を使って過剰適合を制御することができる.

例題

すべて開くすべて閉じる

  (3)

ラベル付きの例で予測器を訓練する:

予測器についての情報を得る:

新たな例を予測する:

ラベル付きの例で分類器関数を訓練する:

例のクラス"A"または"B"である確率を特徴の関数としてプロットし,両者を比較する:

ラベル付きの例で予測器関数を訓練する:

データを予測された値と比較し,標準偏差を見る:

オプション  (6)

"DistributionSmoothing"  (2)

"DistributionSmoothing"サブオプションを使って分類器を訓練する:

"Titanic"訓練集合を使って,デフォルト値の"DistributionSmoothing"で分類器を訓練する:

"DistributionSmoothing"を大きくして2番目の分類器を訓練する:

検定集合からの例について確率を比較する:

"FeatureFraction"  (2)

"FeatureFraction"サブオプションを使い,高次元データについて予測器を訓練する:

"RandomForest"メソッドでは,均衡が取れた"FeatureFraction"で過剰適合を防ぐことができる.

"Titanic"訓練集合を使い,"FeatureFraction"の値を変えて2つの分類器を訓練する:

検定集合と訓練集合の両方について,これらの分類器の確度を比較する:

"LeafSize"  (1)

"Titanic"訓練集合を使い,"LeafSize"の値を変えて2つの分類器を訓練する:

対応するフォレストサイズを比較する:

"TreeNumber"  (1)

"Mushroom"訓練集合を使い,"TreeNumber"の値を変えて2つの分類器を訓練する:

これらの分類器の訓練時間を見る: