"RandomForest" (机器学习方法)

详细信息与子选项

  • 随机森林是通过构建大量决策树来进行分类和回归的综合学习方法。通过采用最常见的类或均值树预测来获得森林预测. 每个决策树在训练集的随机子集上训练,并且只使用特征的随机子集(自展输入引导式聚合算法).
  • 可以给出下列选项:
  • "DistributionSmoothing" 0.5正则化参数
    "FeatureFraction" Automatic用来训练每棵树的、随机选择的特征的一部分
    "LeafSize" Automatic每个叶子上的最大实例数量
    "TreeNumber" Automatic森林里树的数量
  • "FeatureFraction""LeafSize""DistributionSmoothing" 可用来控制过拟合.

范例

打开所有单元关闭所有单元

基本范例  (3)

在有标签的实例上训练预测器:

获取关于预测器的信息:

预测新实例:

在有标签的实例上训练分类器函数:

绘制一个实例作为特征的函数,类别是 "A" 或 "B" 的概率,并进行比较:

在有标签的数据上训练分类器函数:

将数据与预测值相比较,并查看标准偏差:

选项  (6)

"DistributionSmoothing"  (2)

"DistributionSmoothing" 子选项训练一个分类器:

"Titanic" 训练集训练 "DistributionSmoothing" 为缺省值的分类器:

增大 "DistributionSmoothing" 的值,训练第二个分类器:

比较一个测试集中的实例的概率:

"FeatureFraction"  (2)

"FeatureFraction" 子选项在高维数据上训练一个预测器:

"RandomForest" 方法中,平衡的 "FeatureFraction" 可以避免过拟合.

"Titanic" 训练集训练 "FeatureFraction" 值不同的两个分类器:

在测试集和训练集上比较分类器的准确度:

"LeafSize"  (1)

"Titanic" 训练集训练 "LeafSize" 值不同的两个分类器:

比较相应的森林的大小:

"TreeNumber"  (1)

"Mushroom" 训练集训练两个 "TreeNumber" 值不同的分类器:

查看这些分类器的训练时间: