"UMAP" (机器学习方法)

详细信息和子选项

  • "UMAP" 表示均匀流形近似和投影,是一种非线性非参数降维方法. 该方法试图学习数据的低维表示,以保持数据的局部结构与全局结构的平衡.
  • "UMAP" 适用于具有非线性流形的数据集,特别适用于高维数据集的可视化.
  • 下面显示了应用于基准数据集 Fisher's IrisesMNISTFashionMNIST"UMAP" 方法学习的二维嵌入:
  • UMAP 构建数据的高维图形表示,然后优化低维图形,使其在结构上尽可能相似.
  • 为了构造初始的高维图,UMAP 构建一个加权图,边的权重代表两点相连的可能性. 为此,UMAP 根据到每个点的 个最近邻居的距离在本地选择一个半径. 两点相连的可能性随两点之间的距离与该半径的比值呈指数下降.
  • 一旦构建了高维图,UMAP 就会优化低维模拟的布局,使其尽可能相似.
  • 通过规定每个点必须至少与其最近的邻居相连,UMAP 确保局部结构与全局结构保持平衡.
  • 可以给出以下子选项:
  • "MinDistance" 0.1低维空间中点与点之间的最小距离
    "NeighborsNumber" 15构建高维图的最近邻居数
  • "MinDistance" 控制 UMAP 将点聚在一起的紧密程度,值越低,嵌入越紧密. 较大的值将使 UMAP 将点打包得更松散,而专注于广泛拓扑结构的保存.
  • "NeighborsNumber" 有效地控制 UMAP 如何平衡本地和全局结构. 低值将推动更多地关注局部结构,而高值将推动表示大图结构,同时丢失细节.

范例

打开所有单元关闭所有单元

基本范例  (1)

使用 "UMAP" 方法降低一些图像的维度:

可视化图像的二维表示:

选项  (2)

"MinDistance"  (1)

"MNIST" 数据集加载样本:

使用 "UMAP" 降低图像的维度:

在使用 "MinDistance" 子选项运行 UMAP 方法之前,通过执行线性降维来查找特征:

可视化得到的特征并比较结果:

"NeighborsNumber"  (1)

ExampleData 加载 Fisher Iris 数据集:

使用 "UMAP" 方法生成降维函数:

按种类对范例进行分组:

降低特征的维度:

可视化降维后的数据集:

使用不同数量的最近邻执行相同的操作以构造高维图:

应用  (1)

数据可视化  (1)

使用 "UMAP" 方法降低一些图像的维度:

可视化图像的二维表示: