"GaussianMixture" (机器学习方法)

Details & Suboptions

  • LearnDistribution 和聚类函数中,"GaussianMixture" 使用多元正态分布的混合来模拟数值空间的概率密度. 每个高斯分布都由其均值和协方差矩阵定义,正如 "Multinormal" 方法中所定义的那样.
  • 对于聚类函数,每个正态分布代表一个聚类分量. 每个数据点被分配给概率密度最高的分量.
  • 当用于 LearnDistribution 时,可以提供以下选项:
  • "CovarianceType" Automatic在协方差矩阵上的约束类型
    "ComponentsNumber" Automatic高斯数
    MaxIterations100期待最大迭代的最大数
  • "CovarianceType" 的可能设置包括:
  • "Diagonal"只有对角元素被学习(其他设置为 0)
    "Full"所有元素被学习
    "FullShared"每个高斯共享同样完全协方差
    "Spherical"只有对角元素被学习并设为相等
  • 除了当 "CovarianceType""FullShared",协方差矩阵可以彼此不同.
  • Information[LearnedDistribution[],"MethodOption"] 可用于提取由自动系统选择的选项值.
  • LearnDistribution[,FeatureExtractor"Minimal"] 可用于去除大部分预处理并直接访问方法.
  • 对于聚类函数,当未指定聚类数时,将使用贝叶斯推理方法自动确定聚类数. 该方法对混合系数使用 DirichletDistribution 先验,对组件的均值和协方差使用 WishartDistribution 先验. 这种方法适用于任意大小和密度的聚类. 然而,它对初始化参数敏感,当聚类相互交织或呈各向异性时可能会失败.
  • 下图展示了将 "GaussianMixture" 聚类方法应用于玩具数据集的结果:

范例

打开所有单元关闭所有单元

基本范例  (5)

在数值数据集上训练高斯混合分布:

查看分布 Information

获取选项信息:

获取选项信息:

计算新范例的概率密度:

绘制 PDF 以及训练数据:

产生并可视化新样本:

找到由 "GaussianMixture" 标识的随机二维向量聚类:

使用 "GaussianMixture" 方法找到相似值的聚类:

在二维数据集上训练高斯混合分布:

绘制 PDF 和训练数据:

使用 SynthesizeMissingValues 估算使用学习分布的缺失值:

在标称数据集上训练高斯混合分布:

因为必要的预处理,所以 PDF 计算不是精确的:

使用 ComputeUncertainty 获取结果的不确定性:

增加 MaxIterations 提高估计精度:

范围  (1)

使用 ClusteringComponents 查找聚类索引数组:

选项  (3)

"ComponentsNumber"  (1)

用 3 个分量训练 "GaussianMixture" 分布:

计算在特殊点的分布的 PDF:

可视化训练带有 1、2、3 和 10 个分量的混合高斯后获得的 PDF:

"CovarianceType"  (1)

"Full" 协方差训练 "GaussianMixture" 分布:

计算特定点处分布的 PDF:

可视化训练两个带有协方差类型 "Full""Diagonal""Spherical""FullShared" 的混合高斯后获得的 PDF:

执行同样的操作,但是每个协方差类型有高斯的自动数字:

Maxiterations  (1)

训练一个 "GaussianMixture" 分布,限制期待-最大迭代的数为 10:

计算在特定点的分布的 PDF:

可视化两个分量分布的期待-最大算法的收敛:

可能存在的问题  (1)

创建并可视化带噪声的二维月形训练和测试数据集:

使用 "GaussianMixture" 训练 ClassifierFunction,并在测试集中找到聚类分配:

可视化聚类表明 "GaussianMixture" 在交织的聚类上表现不佳: