"LatentSemanticAnalysis" (机器学习方法)

详细信息和子选项

  • "LatentSemanticAnalysis" 是一种线性降维方法. 该方法将输入数据投影到低维空间中,尝试保留数据点之间的语义关联.
  • "LatentSemanticAnalysis" 适用于具有大量特征或大量示例的数据集,尤其适用于稀疏数据集(大多数值为零). "LatentSemanticAnalysis" 通常用于降低术语文档矩阵的维数(文档中的术语计数).
  • 下图显示了 "LatentSemanticAnalysis" 方法应用于基准数据集(Fisher's IrisesMNISTFashionMNIST)的结果:
  • "LatentSemanticAnalysis" 等效于 "Linear""PrincipalComponentsAnalysis" 方法,但数据不居中.
  • 该方法广泛用于信息检索以创建搜索引擎. 该方法还用于文本分类和主题建模等任务的自然语言处理.

范例

打开所有单元关闭所有单元

基本范例  (1)

使用 "LatentSemanticAnalysis" 方法从向量列表训练线性降维:

在新向量上使用经过训练的降维函数:

范围  (1)

数据集可视化  (1)

ExampleData 加载 Fisher Iris 数据集:

使用 "LatentSemanticAnalysis" 生成具有每个示例特征的降维函数:

按物种对示例进行分组:

降低特征的维度:

可视化降维后的数据集:

应用  (1)

文本分析  (1)

加载堂吉诃德的英文文本:

将文本拆分成句子:

用这些句子训练一个降维函数:

训练句子嵌入的最接近函数:

使用该函数在降维的语义空间中找到与查询最接近的句子: