ClusterClassify
ClusterClassify[data]
通过把数据划分为相似元素组成的分群,产生 ClassifierFunction[…].
ClusterClassify[data,n]
生成具有 n 个分群的 ClassifierFunction[…].
更多信息和选项
- ClusterClassify 适用于多个数据类型,包括数值、文字、图像、日期和时间,以及这些数据类型的组合.
- 可以通过以下方式指定群的数量:
-
Automatic 自动求得群数 n 精确求得 n 个分群 UpTo[n] 求得至多 n 个分群 - 可以给出下列选项:
-
CriterionFunction Automatic 选择方法的标准 DistanceFunction Automatic 使用的距离函数 FeatureExtractor Identity 怎样提取要学习的特征 FeatureNames Automatic 为输入数据分配的特征名称 FeatureTypes Automatic 假定输入数据的特征类型 Method Automatic 使用何种方法 MissingValueSynthesis Automatic 怎样合成缺失值 PerformanceGoal Automatic 优化的目标 RandomSeeding 1234 应该在伪随机发生器内部完成的种子指定方式 Weights Automatic 每个范例应该使用什么权值 - 缺省情况下,除非指定了 DistanceFunction,ClusterClassify 将自动对数据进行预处理.
- DistanceFunction 的设置可以是任意距离、相异度函数,或定义两个值之间的距离的函数 f.
- PerformanceGoal 的可能设置包含:
-
Automatic 速度、准确度和存储之间的自动权衡 "Memory" 最小化分类器的存储要求 "Quality" 最大化分类器准确度 "Speed" 最大化分类器速度 "TrainingSpeed" 最小化产生分类器的时间 - Method 的可能设置包含:
-
Automatic 自动选择方法 "Agglomerate" 单链接分群算法 "DBSCAN" 基于密度的空间分群,其中应用噪音 "GaussianMixture" 变分高斯混合算法 "JarvisPatrick" Jarvis–Patrick 分群算法 "KMeans" k 均值分群算法 "KMedoids" 沿着中心划分 "MeanShift" 均值移动分群算法 "NeighborhoodContraction" 将数据点移向高密度区域 "SpanningTree" 基于最小生成树的分群算法 "Spectral" 谱分群算法 - 方法 "KMeans" 和 "KMedoids" 只有当指定群数时才使用.
- 方法 "DBSCAN"、"GaussianMixture"、"JarvisPatrick"、"MeanShift" 和 "NeighborhoodContraction" 只能在聚类数为 Automatic 时使用.
- 下图显示了玩具数据集上常用方法的结果:
- CriterionFunction 的可能设置是:
-
"StandardDeviation" 根均方标准差 "RSquared" R 平方 "Dunn" Dunn 指数 "CalinskiHarabasz" Calinski–Harabasz 指数 "DaviesBouldin" Davies–Bouldin 指数 "Silhouette" 轮廓分数 Automatic 内部指数 - RandomSeeding 的可能设置包括:
-
Automatic 每次调用函数时都会自动重新设置种子 Inherited 使用外部种子随机数 seed 使用明确的整数或字符串作为种子 - ClusterClassify[…,FeatureExtractor"Minimal"] 表明内部预处理应该尽可能简单.
范例
打开所有单元关闭所有单元基本范例 (3)
在某些数值数据上训练 ClassifierFunction:
通过要求类数为5,在某些颜色上训练 ClassifierFunction:
在某些未添加标签的数据上训练 ClassifierFunction:
在某些字符串训练 ClassifierFunction:
范围 (11)
使用 IndeterminateThreshold 对相同检验数据分类:
可视化包含 Indeterminate 分群的所得分群:
选项 (10)
CriterionFunction (1)
使用 Automatic CriterionFunction 构建分类器函数:
使用 Calinski–Harabasz 指数作为 CriterionFunction 构建分类器:
FeatureExtractor (1)
根据图像列表创建 ClassifierFunction,并对新实例进行分类:
创建一个自定义 FeatureExtractor 来提取特征:
Method (2)
用 Information 来获取方法的说明信息:
使用 ClusterClassify 通过指定使用的方法查找分群,并且查看 AbsoluteTiming:
使用 ClusterClassify 查找分群,而不用指定使用的方法,并且查看 AbsoluteTiming:
MissingValueSynthesis (1)
用 ClusterClassify 求聚类:
PerformanceGoal (1)
对某些随机产生的数据分群,并且查看 AbsoluteTiming:
对某些随机产生的数据分群,并且查看 AbsoluteTiming 与上面比较:
RandomSeeding (1)
通过使用 RandomSeeding 选项的不同值来对相同颜色上的几个分类器进行训练:
文本
Wolfram Research (2016),ClusterClassify,Wolfram 语言函数,https://reference.wolfram.com/language/ref/ClusterClassify.html (更新于 2020 年).
CMS
Wolfram 语言. 2016. "ClusterClassify." Wolfram 语言与系统参考资料中心. Wolfram Research. 最新版本 2020. https://reference.wolfram.com/language/ref/ClusterClassify.html.
APA
Wolfram 语言. (2016). ClusterClassify. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/ClusterClassify.html 年