"GaussianMixture" (机器学习方法)
- LearnDistribution,FindClusters,ClusterClassify 和 ClusteringComponents 的方法.
- 模拟带有混合高斯(正态)分布的概率密度.
Details & Suboptions
- 在 LearnDistribution 和聚类函数中,"GaussianMixture" 使用多元正态分布的混合来模拟数值空间的概率密度. 每个高斯分布都由其均值和协方差矩阵定义,正如 "Multinormal" 方法中所定义的那样.
- 对于聚类函数,每个正态分布代表一个聚类分量. 每个数据点被分配给概率密度最高的分量.
- 当用于 LearnDistribution 时,可以提供以下选项:
-
"CovarianceType" Automatic 在协方差矩阵上的约束类型 "ComponentsNumber" Automatic 高斯数 MaxIterations 100 期待最大迭代的最大数 - "CovarianceType" 的可能设置包括:
-
"Diagonal" 只有对角元素被学习(其他设置为 0) "Full" 所有元素被学习 "FullShared" 每个高斯共享同样完全协方差 "Spherical" 只有对角元素被学习并设为相等 - 除了当 "CovarianceType""FullShared",协方差矩阵可以彼此不同.
- Information[LearnedDistribution[…],"MethodOption"] 可用于提取由自动系统选择的选项值.
- LearnDistribution[…,FeatureExtractor"Minimal"] 可用于去除大部分预处理并直接访问方法.
- 对于聚类函数,当未指定聚类数时,将使用贝叶斯推理方法自动确定聚类数. 该方法对混合系数使用 DirichletDistribution 先验,对组件的均值和协方差使用 WishartDistribution 先验. 这种方法适用于任意大小和密度的聚类. 然而,它对初始化参数敏感,当聚类相互交织或呈各向异性时可能会失败.
- 下图展示了将 "GaussianMixture" 聚类方法应用于玩具数据集的结果:
范例
打开所有单元关闭所有单元基本范例 (5)
查看分布 Information:
找到由 "GaussianMixture" 标识的随机二维向量聚类:
使用 "GaussianMixture" 方法找到相似值的聚类:
使用 SynthesizeMissingValues 估算使用学习分布的缺失值:
使用 ComputeUncertainty 获取结果的不确定性:
增加 MaxIterations 提高估计精度:
范围 (1)
使用 ClusteringComponents 查找聚类索引数组:
选项 (3)
"ComponentsNumber" (1)
"CovarianceType" (1)
可能存在的问题 (1)
使用 "GaussianMixture" 训练 ClassifierFunction,并在测试集中找到聚类分配: