FeatureExtraction

FeatureExtraction[{example₁,example₂,…}]

生成用给定样例训练的 FeatureExtractorFunction[…].

FeatureExtraction[examples,extractor]

使用指定的特征提取方法.

FeatureExtraction[examples,{extractor₁,extractor₂,…}]

依次应用 extractor_i 以生成特征提取器.

FeatureExtraction[examples,specext]

对 examples 的由 spec 指定的部分使用由 ext 指定的提取方法.

FeatureExtraction[examples,{spec₁ext₁,spec₂ext₂,…}]

对 examples 的由 spec_i 指定的部分使用由 ext_i 指定的提取方法.

FeatureExtraction[examples,extractor,props]

给出由 props 指定的特征提取属性.

更多信息和选项

FeatureExtraction 可用于许多类型的数据，包括数字、文本、音频、图像、图和时间序列，以及这些类型的组合.
各 example_i 可以是单一数据元素、数据元素列表、数据元素关联或者 Dataset 对象.
FeatureExtraction[examples] 返回可应用于特定数据的 FeatureExtractorFunction[…].
可能的特征提取方法包括：

	Automatic	自动提取
	Identity	给出无变化的数据
	"ConformedData"	一致化的图像、颜色、日期等
	"NumericVector"	来自任意数据的数值向量
	f	对每个样例应用函数 f
	{extractor₁,extractor₂,…}	依次使用一系列提取器

也可对每个数据类型应用其他特征提取方法.
数值数据：

	"DiscretizedVector"	离散化的数值数据
	"DimensionReducedVector"	降维的数值向量
	"MissingImputed"	缺失值被估算的数据
	"StandardizedVector"	用 Standardize 处理过的数值数据

标称数据：
"IndicatorVector" 用指示向量“独热编码”的名义数据

"IntegerVector" 用整数编码的名义数据
文本：

	"LowerCasedText"	每个字符均为小写的文本
	"SegmentedCharacters"	分割成字符的文本
	"SegmentedWords"	分割成单词的文本
	"TFIDF"	词频逆向文件频率向量
	"WordVectors"	文字的语义向量序列（仅限英文）

图像：
"FaceFeatures" 来自人脸图像的语义向量

"ImageFeatures" 图像的语义向量

"PixelVector" 图像像素值向量
音频对象：

	"AudioFeatures"	音频对象的语义向量序列
	"AudioFeatureVector"	音频对象的语义向量
	"LPC"	音频线性预测系数
	"MelSpectrogram"	用对数频次分组的音频频谱图
	"MFCC"	音频梅尔频率倒谱系数向量序列
	"SpeakerFeatures"	讲话者的语义向量序列
	"SpeakerFeatureVector"	讲话者的语义向量
	"Spectrogram"	音频频谱图

视频对象：
"VideoFeatures" 来自视频对象的语义向量序列

"VideoFeatureVector" 来自视频对象的语义向量
图：
"GraphFeatures" 总结图的属性的数值向量
分子：

	"AtomPairs"	来自原子对的布尔向量以及它们之间的路径长度
	"MoleculeExtendedConnectivity"	来自枚举的分子子图的布尔向量
	"MoleculeFeatures"	概括分子属性的数值向量
	"MoleculeTopologicalFeatures"	来自圆形原子邻域的布尔向量

特征提取程序方法被应用于类型与它们兼容的数据元素. 其它数据元素被无变化地返回.
FeatureExtraction[examples] 等价于 FeatureExtraction[examples,Automatic]，通常等价于 FeatureExtraction[examples,"NumericVector"].
"NumericVector" 方法通常会将样例转换为数值向量，估算缺失值，并使用 DimensionReduction 降低维度.
在 FeatureExtraction[examples,extractors,props] 中，props 可以是单一属性或属性列表. 可能的属性包括：

	"ExtractorFunction"	FeatureExtractorFunction[…]（默认）
	"ExtractedFeatures"	特征提取之后的 examples
	"ReconstructedData"	提取和逆提取之后的 examples
	"FeatureDistance"	从提取程序生成的 FeatureDistance[…]

在 FeatureExtraction[examples,specext] 或 FeatureExtraction[examples,{spec₁ext₁,…}] 中， spec 和 spec_i 的可能形式包括：

	All	各样例的所有部分
	i	各样例的第 i 个部分
	{i₁,i₂,…}	各样例的部分 i₁、i₂、…
	"name"	在各样例中具有指定名称的部分
	{"name₁","name₂",…}	在各样例中名为 "name_i" 的部分

未在 spec 或 spec_i 提及的部分将出于提取特征的目的而被删除.
在 FeatureExtract[examples,{spec₁ext₁,…}] 中，ext_i 被全部分别应用于 examples.
可以给出以下选项：

FeatureNames	Automatic	赋给 example_i 的元素的名称
FeatureTypes	Automatic	对 example_i 的元素要假定的特征类型
RandomSeeding	1234	应该在内部对伪随机数生成器进行什么样的初始化

RandomSeeding 的可能设置包括：
Automatic 每次函数调用时自动重新播种

Inherited 使用外部播种的随机数字

seed 用明确给定的整数或字符串作为种子
FeatureExtraction[…,"ExtractedFeatures"] 等价于 FeatureExtract[…].
FeatureExtraction[…,"FeatureDistance"] 等价于 FeatureDistance[FeatureExtraction[…]].

范例

打开所有单元关闭所有单元

基本范例 (3)

在简单的数据集上训练 FeatureExtractorFunction：

从新的样例提取特征：

从一个样例列表提取特征：

在图像数据集上训练特征提取程序：

在训练集上使用特征提取程序：

使用 "StandardizedVector" 提取程序方法从数值数据集建立特征提取程序：

在训练集上使用特征提取程序：

属性 "ExtractedFeatures" 可用于一步完成此操作：

可以查询多个属性：

范围 (14)

在文本数据上训练特征提取程序：

在新的样例上使用特征提取程序：

在一个 DateObject 列表上训练特征提取程序：

从新的 DateObject 提取特征：

也可以给出字符串日期：

在 Graph 列表上训练特征提取器：

从新图中提取特征：

在 TimeSeries 列表上训练特征提取器：

从新的 TimeSeries 中提取特征：

训练特征提取程序计算文本的词频逆向文件频率向量：

训练集的词频逆向文件频率矩阵可以在 SparseArray 中计算：

可视化矩阵：

"TFIDF" 方法也可以用于标记的数据（名义袋）：

在文本上先后使用 "TFIDF" 方法和 "DimensionReduced" 方法训练特征提取程序：

在训练集上提取特征：

用自定义函数生成特征提取器：

在训练集上应用提取器：

用 "StandardizedVector" 方法把自定义提取器链接起来：

在名义变量上通过 "IndicatorVector" 方法训练特征提取程序：

从新的样例提取特征：

通过 "IndicatorVector" 方法仅对第二个名义变量训练特征提取程序：

第一个名义变量被删除：

使用 Identity 提取程序方法复制第一个变量：

第一个变量被复制：

可以多次复制一个变量：

在混合类型数据集上训练特征提取程序：

从新的样例提取特征：

使用 "TFIDF" 方法在文本和图像上训练特征提取程序：

特征将仅从文本部分提取：

从包含缺失值的数据集训练特征提取程序：

即使是在值丢失的情况下，这个特征提取程序也可以提取特征：

使用 "StandardizedVector" 方法训练特征提取程序：

从新的样例提取特征：

由于此特征提取程序是可逆的，FeatureExtractorFunction 的属性 "OriginalData" 可用于执行逆向提取：

有些特征提取程序只能进行逆向提取的近似：

FeatureExtraction 的属性 "ReconstructedData" 可用于获得提取和重构后的数据：

有些特征提取程序不可逆：

从一个关联列表训练特征提取程序：

从新的样例提取特征：

选项 (3)

FeatureNames (2)

训练特征提取程序，给每个特征一个名称：

使用关联格式从新的样例提取特征：

依然可以使用列表格式：

使用 FeatureNames 设置名称，并在 FeatureExtraction[examples,{spec₁ext₁,…}] 中引用它们：

FeatureTypes (1)

在简单数据集上通过 "IndicatorVector" 训练特征提取程序：

第一个特征被解释为数值型. 由于 "IndicatorVector" 方法仅作用于名义特征，第一个特征不变：

使用 FeatureTypes 执行作为名义的第一个特征的诠释：

应用 (3)

图像搜索 (1)

建立一个狗图片的数据集：

从这个数据集训练提取程序函数：

生成关于数据集的提取特征的 NearestFunction：

使用 NearestFunction，构建一个函数，显示数据集的最相近图像：

将这个函数用于不在这个数据集的图像：

这个特征提取程序函数也可以用于删除过于相似的图像对：

文本搜索 (1)

加载 Alice in Wonderland 的文本：

将文本拆分为单句：

在这些单句上训练特征提取程序：

生成带有单句特征的 NearestFunction：

使用 NearestFunction，构建一个函数，显示 Alice in Wonderland 中最相近的单句：

将这个函数用于几个查询：

估算 (1)

从 ExampleData 中加载 "MNIST" 数据集，并保留图像：

将图像转换为数值数据，并将数据集分离成训练集和测试集：

数据集的维度为 784：

使用 "MissingImputed" 方法创建特征提取程序：

用 Missing[] 替换测试集向量的某些值，并可视化：

使用 FeatureExtractorFunction[…] 估算缺失值：

可视化原始图像、带有缺失值的图像和估算后的图像：

顶部

更多学习资源

技术支持

Wolfram 解决方案

Wolfram 的教育解决方案

开始

提高你的技能

与我们合作

成人教育计划

青少年教育计划

欢迎阅读

FeatureExtraction

更多信息和选项

范例

基本范例 (3)

范围 (14)

选项 (3)

FeatureNames (2)

FeatureTypes (1)

应用 (3)

图像搜索 (1)

文本搜索 (1)

估算 (1)

文本

CMS

APA

BibTeX

BibLaTeX

	"IndicatorVector"	用指示向量“独热编码”的名义数据
	"IntegerVector"	用整数编码的名义数据

	"FaceFeatures"	来自人脸图像的语义向量
	"ImageFeatures"	图像的语义向量
	"PixelVector"	图像像素值向量

	"VideoFeatures"	来自视频对象的语义向量序列
	"VideoFeatureVector"	来自视频对象的语义向量

	Automatic	每次函数调用时自动重新播种
	Inherited	使用外部播种的随机数字
	seed	用明确给定的整数或字符串作为种子

FeatureExtraction

更多信息和选项

范例

基本范例 (3)

范围 (14)

选项 (3)

FeatureNames (2)

FeatureTypes (1)

应用 (3)

图像搜索 (1)

文本搜索 (1)

估算 (1)

参见

相关指南

历史

文本

CMS

APA

BibTeX

BibLaTeX