Wolfram 语言与系统参考资料中心

CreateSemanticSearchIndex

CreateSemanticSearchIndex[source]

从 source 中的数据创建搜索索引.

CreateSemanticSearchIndex[{source₁,…}]

用一系列资源创建搜索索引 source_i.

CreateSemanticSearchIndex[{source₁val₁,…}]

将资源 source_i 与值 val_i 关联在一起.

CreateSemanticSearchIndex[data,"name"]

为搜索索引指定名称.

更多信息和选项

CreateSemanticSearchIndex 用于从文本中提取可用来对内容进行语义搜索的特征.
source 可取的值有：

	"string"	纯字符串
	File["path"]	单个文件
	URL["url"]	"url" 的文本表示
	CloudObject[…]	云对象
	LocalObject[…]	本地对象
	ContentObject[…]	内容对象
	{source₁,source₂,…}	资源列表

可为资源添加注释. 来自给定资源的每个数据块都将具有相同的注释.
指定注释的可能的方法包括：
{soure₁val₁,…} 资源和关联的值组成的列表

{source₁,…}{val₁,…} 资源和值组成的规则
可接受的 val_i 的形式包括：
"string" 字符串标签

<|"tag₁"v₁,…|> 标签和元数据值组成的关联
CreateSemanticSearchIndex 支持以下选项：

DistanceFunction	EuclideanDistance	使用的距离函数
FeatureExtractor	"MiniLM"	如何从文本片段中提取特征
GeneratedAssetLocation	$GeneratedAssetLocation	索引的位置
Method	Automatic	方法的详细信息
OverwriteTarget	Automatic	是否覆盖现有位置
ProgressReporting	$ProgressReporting	是否报告计算进度
WorkingPrecision	"Real32"	浮点计算的精度

DistanceFunction 可取的值包括 EuclideanDistance、SquaredEuclideanDistance、CosineDistance、JaccardDissimilarity 和 HammingDistance.
FeatureExtractor 可取的值包括：
"SentenceBERT" 基于 SentenceBERT 的本地模型

LLMConfiguration 基于 LLM 的语句嵌入

f 自定义的提取函数
自定义的提取函数 f 必须在字符串列表上进行操作并生成相同长度的向量列表.
通过 Method<|opt₁val₁|> 给出选项. opt_i 可取的值有：

"ContextPadding"		片段之间的最小重叠
"MaximumItemLength"		文本片段的最小长度
"MinimumItemLength"		文本片段的最大长度
"SplitPattern"	Automatic	在哪里分割长字符串

设为自动的 "SplitPattern" 尝试将资源文本拆分为段落、换行符和单词，创建长度位于 "MinimumItemLength" 和 "MaximumItemLength" 之间的片段.
WorkingPrecision 可能的设置包括：
"Integer8" 从 -128 到 127 的有符号 8 位整数

"Real32" 单精度实数 (32-bit)

"Real64" 双精度实数 (64-bit)

范例

打开所有单元关闭所有单元

基本范例 (2)

创建一个新的 SemanticSearchIndex：

通过语义相似度在文本中搜索：

创建包含多个带有标签的资源的索引：

获取最相似的项的标签：

范围 (6)

数据源 (4)

从字符串创建索引：

从文件创建索引：

从 URL 创建索引：

创建具有特定名称的索引：

注释 (2)

用标签注释资源：

每个数据块都会继承相应的源的标签：

执行搜索时返回标签：

用带有标记的元数据为资源添加注释：

用单独的 Association 指定注释：

选项 (10)

DistanceFunction (1)

自定义索引的距离函数：

默认情况下，使用 EuclideanDistance：

FeatureExtractor (1)

训练自定义特征提取器：

用它从另一个文本中提取特征：

GeneratedAssetLocation (3)

指定存储数据库的自定义位置：

检索位置：

默认情况下，数据库存储在本地对象中：

将矢量数据库存储在文件中：

检索位置：

根据文件参考重新创建数据库：

Method (2)

创建包含多个非常短的条目的文本：

整个文本将作为一个块嵌入：

调整条目的最小和最大长度，将其划分成更多相关的部分：

创建多个文本段落：

用非标准分隔符将它们连接起来：

默认的段落和句子划分会产生较差的结果：

用自定义的分割模式在指定的分隔符处进行划分：

OverwriteTarget (2)

索引的位置由其名称自动确定：

如果采用默认的 OverwriteTargetAutomatic，将生成一个新的索引名称以避免冲突：

如果想强制覆盖，可使用 OverwriteTargetTrue：

用 OverwriteTargetFalse 进行更严格的检查：

OverwriteTargetFalse 还将防止在不同位置重复使用相同的索引名称：

创建一个文件：

默认情况下，现有文件不会被覆盖：

用 OverwriteTargetTrue 覆盖现有文件：

WorkingPrecision (1)

自定义嵌入向量的工作精度：

工作精度被存储在索引的向量数据库中：

获取精度值：

应用 (2)

创建单词及其定义之间的反向映射：

用映射构建索引：

通过将查询与定义进行匹配在字典中进行反向查找：

从书中检索引文：

在不确知原文的情况下搜索引文：

属性和关系 (1)

创建索引并获取嵌入的内容：

FeatureExtract 可使用指定的 "SentenceVector" 提取器来创建类似的嵌入：

可能存在的问题 (2)

输入字符串始终被解释为文本：

要访问该链接，请使用 URL 封装：

用 File 导入文件的内容：

包含多个短条目的文本：

不会进行分段，因为字符串的长度小于默认的最大值：

减小最大长度以确保进行分段：

Top

更多学习资源

技术支持

Wolfram 解决方案

Wolfram 的教育解决方案

开始

提高你的技能

与我们合作

成人教育计划

青少年教育计划

欢迎阅读

CreateSemanticSearchIndex

更多信息和选项

范例

基本范例 (2)