FeatureExtraction
FeatureExtraction[{example1,example2,…}]
生成用给定样例训练的 FeatureExtractorFunction[…].
FeatureExtraction[examples,extractor]
使用指定的特征提取方法.
FeatureExtraction[examples,{extractor1,extractor2,…}]
依次应用 extractori 以生成特征提取器.
FeatureExtraction[examples,specext]
对 examples 的由 spec 指定的部分使用由 ext 指定的提取方法.
FeatureExtraction[examples,{spec1ext1,spec2ext2,…}]
对 examples 的由 speci 指定的部分使用由 exti 指定的提取方法.
FeatureExtraction[examples,extractor,props]
给出由 props 指定的特征提取属性.
更多信息和选项
- FeatureExtraction 可用于许多类型的数据,包括数字、文本、音频、图像、图和时间序列,以及这些类型的组合.
- 各 examplei 可以是单一数据元素、数据元素列表、数据元素关联或者 Dataset 对象.
- FeatureExtraction[examples] 返回可应用于特定数据的 FeatureExtractorFunction[…].
- 可能的特征提取方法包括:
-
Automatic 自动提取 Identity 给出无变化的数据 "ConformedData" 一致化的图像、颜色、日期等 "NumericVector" 来自任意数据的数值向量 f 对每个样例应用函数 f {extractor1,extractor2,…} 依次使用一系列提取器 - 也可对每个数据类型应用其他特征提取方法.
- 数值数据:
-
"DiscretizedVector" 离散化的数值数据 "DimensionReducedVector" 降维的数值向量 "MissingImputed" 缺失值被估算的数据 "StandardizedVector" 用 Standardize 处理过的数值数据 - 标称数据:
-
"IndicatorVector" 用指示向量“独热编码”的名义数据 "IntegerVector" 用整数编码的名义数据 - 文本:
-
"LowerCasedText" 每个字符均为小写的文本 "SegmentedCharacters" 分割成字符的文本 "SegmentedWords" 分割成单词的文本 "TFIDF" 词频逆向文件频率向量 "WordVectors" 文字的语义向量序列(仅限英文) - 图像:
-
"FaceFeatures" 来自人脸图像的语义向量 "ImageFeatures" 图像的语义向量 "PixelVector" 图像像素值向量 - 音频对象:
-
"AudioFeatures" 音频对象的语义向量序列 "AudioFeatureVector" 音频对象的语义向量 "LPC" 音频线性预测系数 "MelSpectrogram" 用对数频次分组的音频频谱图 "MFCC" 音频梅尔频率倒谱系数向量序列 "SpeakerFeatures" 讲话者的语义向量序列 "SpeakerFeatureVector" 讲话者的语义向量 "Spectrogram" 音频频谱图 - 视频对象:
-
"VideoFeatures" 来自视频对象的语义向量序列 "VideoFeatureVector" 来自视频对象的语义向量 - 图:
-
"GraphFeatures" 总结图的属性的数值向量 - 分子:
-
"AtomPairs" 来自原子对的布尔向量以及它们之间的路径长度 "MoleculeExtendedConnectivity" 来自枚举的分子子图的布尔向量 "MoleculeFeatures" 概括分子属性的数值向量 "MoleculeTopologicalFeatures" 来自圆形原子邻域的布尔向量 - 特征提取程序方法被应用于类型与它们兼容的数据元素. 其它数据元素被无变化地返回.
- FeatureExtraction[examples] 等价于 FeatureExtraction[examples,Automatic],通常等价于 FeatureExtraction[examples,"NumericVector"].
- "NumericVector" 方法通常会将样例转换为数值向量,估算缺失值,并使用 DimensionReduction 降低维度.
- 在 FeatureExtraction[examples,extractors,props] 中,props 可以是单一属性或属性列表. 可能的属性包括:
-
"ExtractorFunction" FeatureExtractorFunction[…](默认) "ExtractedFeatures" 特征提取之后的 examples "ReconstructedData" 提取和逆提取之后的 examples "FeatureDistance" 从提取程序生成的 FeatureDistance[…] - 在 FeatureExtraction[examples,specext] 或 FeatureExtraction[examples,{spec1ext1,…}] 中, spec 和 speci 的可能形式包括:
-
All 各样例的所有部分 i 各样例的第 i 个部分 {i1,i2,…} 各样例的部分 i1、i2、… "name" 在各样例中具有指定名称的部分 {"name1","name2",…} 在各样例中名为 "namei" 的部分 - 未在 spec 或 speci 提及的部分将出于提取特征的目的而被删除.
- 在 FeatureExtract[examples,{spec1ext1,…}] 中,exti 被全部分别应用于 examples.
- 可以给出以下选项:
-
FeatureNames Automatic 赋给 examplei 的元素的名称 FeatureTypes Automatic 对 examplei 的元素要假定的特征类型 RandomSeeding 1234 应该在内部对伪随机数生成器进行什么样的初始化 - RandomSeeding 的可能设置包括:
-
Automatic 每次函数调用时自动重新播种 Inherited 使用外部播种的随机数字 seed 用明确给定的整数或字符串作为种子 - FeatureExtraction[…,"ExtractedFeatures"] 等价于 FeatureExtract[…].
- FeatureExtraction[…,"FeatureDistance"] 等价于 FeatureDistance[FeatureExtraction[…]].
范例
打开所有单元关闭所有单元基本范例 (3)
在简单的数据集上训练 FeatureExtractorFunction:
使用 "StandardizedVector" 提取程序方法从数值数据集建立特征提取程序:
范围 (14)
在一个 DateObject 列表上训练特征提取程序:
从新的 DateObject 提取特征:
在 Graph 列表上训练特征提取器:
在 TimeSeries 列表上训练特征提取器:
从新的 TimeSeries 中提取特征:
训练集的词频逆向文件频率矩阵可以在 SparseArray 中计算:
在文本上先后使用 "TFIDF" 方法和 "DimensionReduced" 方法训练特征提取程序:
用 "StandardizedVector" 方法把自定义提取器链接起来:
在名义变量上通过 "IndicatorVector" 方法训练特征提取程序:
通过 "IndicatorVector" 方法仅对第二个名义变量训练特征提取程序:
使用 Identity 提取程序方法复制第一个变量:
使用 "StandardizedVector" 方法训练特征提取程序:
由于此特征提取程序是可逆的,FeatureExtractorFunction 的属性 "OriginalData" 可用于执行逆向提取:
FeatureExtraction 的属性 "ReconstructedData" 可用于获得提取和重构后的数据:
选项 (3)
FeatureNames (2)
使用 FeatureNames 设置名称,并在 FeatureExtraction[examples,{spec1ext1,…}] 中引用它们:
FeatureTypes (1)
在简单数据集上通过 "IndicatorVector" 训练特征提取程序:
第一个特征被解释为数值型. 由于 "IndicatorVector" 方法仅作用于名义特征,第一个特征不变:
使用 FeatureTypes 执行作为名义的第一个特征的诠释:
应用 (3)
图像搜索 (1)
生成关于数据集的提取特征的 NearestFunction:
使用 NearestFunction,构建一个函数,显示数据集的最相近图像:
文本搜索 (1)
生成带有单句特征的 NearestFunction:
使用 NearestFunction,构建一个函数,显示 Alice in Wonderland 中最相近的单句:
估算 (1)
从 ExampleData 中加载 "MNIST" 数据集,并保留图像:
使用 "MissingImputed" 方法创建特征提取程序:
用 Missing[] 替换测试集向量的某些值,并可视化:
使用 FeatureExtractorFunction[…] 估算缺失值:
文本
Wolfram Research (2016),FeatureExtraction,Wolfram 语言函数,https://reference.wolfram.com/language/ref/FeatureExtraction.html (更新于 2021 年).
CMS
Wolfram 语言. 2016. "FeatureExtraction." Wolfram 语言与系统参考资料中心. Wolfram Research. 最新版本 2021. https://reference.wolfram.com/language/ref/FeatureExtraction.html.
APA
Wolfram 语言. (2016). FeatureExtraction. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/FeatureExtraction.html 年