"UMAP" (机器学习方法)
- 用于 DimensionReduction、DimensionReduce、FeatureSpacePlot 和 FeatureSpacePlot3D 的方法.
- 使用均匀流形近似和投影降低数据维度.
详细信息和子选项
- "UMAP" 表示均匀流形近似和投影,是一种非线性非参数降维方法. 该方法试图学习数据的低维表示,以保持数据的局部结构与全局结构的平衡.
- "UMAP" 适用于具有非线性流形的数据集,特别适用于高维数据集的可视化.
- 下面显示了应用于基准数据集 Fisher's Irises、MNIST 和 FashionMNIST 的 "UMAP" 方法学习的二维嵌入:
- UMAP 构建数据的高维图形表示,然后优化低维图形,使其在结构上尽可能相似.
- 为了构造初始的高维图,UMAP 构建一个加权图,边的权重代表两点相连的可能性. 为此,UMAP 根据到每个点的 个最近邻居的距离在本地选择一个半径. 两点相连的可能性随两点之间的距离与该半径的比值呈指数下降.
- 一旦构建了高维图,UMAP 就会优化低维模拟的布局,使其尽可能相似.
- 通过规定每个点必须至少与其最近的邻居相连,UMAP 确保局部结构与全局结构保持平衡.
- 可以给出以下子选项:
-
"MinDistance" 0.1 低维空间中点与点之间的最小距离 "NeighborsNumber" 15 构建高维图的最近邻居数 - "MinDistance" 控制 UMAP 将点聚在一起的紧密程度,值越低,嵌入越紧密. 较大的值将使 UMAP 将点打包得更松散,而专注于广泛拓扑结构的保存.
- "NeighborsNumber" 有效地控制 UMAP 如何平衡本地和全局结构. 低值将推动更多地关注局部结构,而高值将推动表示大图结构,同时丢失细节.
范例
打开所有单元关闭所有单元选项 (2)
"MinDistance" (1)
"NeighborsNumber" (1)
从 ExampleData 加载 Fisher Iris 数据集: