FeatureExtract
FeatureExtract[{example1,example2,…}]
使用在全部 examplei 上训练过的特征提取程序提取各个 examplei 的特征.
FeatureExtract[examples,extractor]
使用指定的特征提取程序方法提取特征.
FeatureExtract[examples,{extractor1,extractor2,…}]
通过顺次应用 extractori 提取特征.
FeatureExtract[examples,specext]
对 examples 的各部分使用由 spec 指定的提取程序方法 ext.
FeatureExtract[examples,{spec1ext1,spec2ext2,…}]
对 examples 的各部分使用由 speci 指定的提取程序方法 exti.
更多信息和选项
- FeatureExtract 可用于许多类型的数据,包括数字、文本、音频、图像、图和时间序列,以及这些类型的组合.
- 各 examplei 可以是单一数据元素、数据元素列表、数据元素关联或者 Dataset 对象.
- 可能的特征提取程序方法包括:
-
Automatic 自动提取 Identity 给出无变化的数据 "ConformedData" 一致化的图像、颜色、日期等 "NumericVector" 来自任意数据的数值向量 f 对各个样例应用函数 f {extractor1,extractor2,…} 依次使用一系列提取器 - 也可对每个数据类型应用其他特征提取方法.
- 数值数据:
-
"DiscretizedVector" 离散化的数值数据 "DimensionReducedVector" 降维的数值向量 "MissingImputed" 缺失值被估算的数据 "StandardizedVector" 用 Standardize 处理过的数值数据 - 标称数据:
-
"IndicatorVector" 用指示向量“独热编码”的名义数据 "IntegerVector" 用整数编码的名义数据 - 文本:
-
"LowerCasedText" 每个字符均为小写的文本 "SegmentedCharacters" 分割成字符的文本 "SegmentedWords" 分割成单词的文本 "TFIDF" 词频逆向文件频率向量 "WordVectors" 文字的语义向量序列(仅限英文) - 图像:
-
"FaceFeatures" 来自人脸图像的语义向量 "ImageFeatures" 图像的语义向量 "PixelVector" 图像像素值向量 - 音频对象:
-
"AudioFeatures" 音频对象的语义向量序列 "AudioFeatureVector" 音频对象的语义向量 "LPC" 音频线性预测系数 "MelSpectrogram" 用对数频次分组的音频频谱图 "MFCC" 音频梅尔频率倒谱系数向量序列 "SpeakerFeatures" 讲话者的语义向量序列 "SpeakerFeatureVector" 讲话者的语义向量 "Spectrogram" 音频频谱图 - 视频对象:
-
"VideoFeatures" 来自视频对象的语义向量序列 "VideoFeatureVector" 来自视频对象的语义向量 - 图:
-
"GraphFeatures" 总结图的属性的数值向量 - 分子:
-
"AtomPairs" 来自原子对的布尔向量以及它们之间的路径长度 "MoleculeExtendedConnectivity" 来自枚举的分子子图的布尔向量 "MoleculeFeatures" 概括分子属性的数值向量 "MoleculeTopologicalFeatures" 来自圆形原子邻域的布尔向量 - 特征提取程序方法被应用于类型与它们兼容的数据元素. 其它数据元素被无变化地返回.
- FeatureExtract[examples] 通常等价于 FeatureExtract[examples,"NumericVector"].
- 在 FeatureExtract[examples,specext] 或 FeatureExtract[examples,{spec1ext1,…}] 中,spec 和 speci 的可能形式包括:
-
All 各样例的所有部分 i 各样例的第 i 个部分 {i1,i2,…} 各样例的部分 i1、i2、… "name" 在各样例中具有指定名称的部分 {"name1","name2",…} 在各样例中名为 "namei" 的部分 - 为了提取特征将,在 spec 或 speci 中未提到的部分将被删除.
- 在 FeatureExtract[examples,{spec1ext1,…}] 中,exti 被全部分别应用于 examples.
- 可以给出以下选项:
-
FeatureNames Automatic 赋给 examplei 的元素的名称 FeatureTypes Automatic 对 examplei 的元素要假定的特征类型 RandomSeeding 1234 应该在内部对伪随机数生成器进行什么样的初始化 - RandomSeeding 的可能设置包括:
-
Automatic 每次函数调用时自动重新播种 Inherited 使用外部播种的随机数字 seed 用明确给定的整数或字符串作为种子 - FeatureExtract[…] 等价于 FeatureExtraction[…,"ExtractedFeatures"].
范例
打开所有单元关闭所有单元基本范例 (4)
范围 (10)
从 DateObject 列表提取特征:
在 Graph 列表上训练特征提取器:
在 TimeSeries 列表上训练特征提取器:
先后使用 "TFIDF" 方法和 "DimensionReduced" 方法提取文本的特征:
在名义变量上通过 "IndicatorVector" 方法提取特征:
仅在第二个名义变量上通过 "IndicatorVector" 方法提取特征:
使用 Identity 提取程序方法也复制第一个变量:
选项 (2)
FeatureNames (1)
使用 FeatureNames 命名特征,并在部分规范中引用它们的名称:
FeatureTypes (1)
在简单数据集上通过 "IndicatorVector" 方法提取特征:
第一个特征被诠释为数值型,由于 "IndicatorVector" 方法仅作用于名义特征,第一个特征不变化.
使用 FeatureTypes 执行作为名义第一个特征的诠释:
应用 (1)
数据集可视化 (1)
文本
Wolfram Research (2016),FeatureExtract,Wolfram 语言函数,https://reference.wolfram.com/language/ref/FeatureExtract.html (更新于 2021 年).
CMS
Wolfram 语言. 2016. "FeatureExtract." Wolfram 语言与系统参考资料中心. Wolfram Research. 最新版本 2021. https://reference.wolfram.com/language/ref/FeatureExtract.html.
APA
Wolfram 语言. (2016). FeatureExtract. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/FeatureExtract.html 年