FeatureExtraction[examples]
生成用给定样例训练的 FeatureExtractorFunction[…].
FeatureExtraction[examples,spec]
使用指定的特征提取方法 spec.
FeatureExtraction[examples,spec,props]
给出由 props 指定的特征提取属性.
FeatureExtraction
FeatureExtraction[examples]
生成用给定样例训练的 FeatureExtractorFunction[…].
FeatureExtraction[examples,spec]
使用指定的特征提取方法 spec.
FeatureExtraction[examples,spec,props]
给出由 props 指定的特征提取属性.
更多信息和选项
- FeatureExtraction 通常用于定义将原始数据处理为可用特征的函数(例如,用于训练机器学习算法).
- FeatureExtraction 可用于许多类型的数据,包括数字、文本、音频、图像、图和时间序列,以及这些类型的组合.
- examples 的可能值有:
-
{example1,…} 训练示例的列表 Dataset[…] Dataset 对象 Tabular[…] Tabular 对象 None 无训练示例 - 各 examplei 可以是单一数据元素、数据元素列表或者数据元素关联.
- spec 的可能值有:
-
extractor 使用指定的提取器方法 partextractor 对特定示例部分应用提取器 {part1extractor1,…} 为特定部分指定提取器 - 可能的特征提取器方法 extractor 包括:
-
Automatic 自动提取 Identity 给出无变化的数据 "ConformedData" 一致化的图像、颜色、日期等 "NumericVector" 来自任意数据的数值向量 "name" 命名提取器方法 f 对各个示例应用函数 f {extractor1,extractor2,…} 依次使用一系列提取器 - 可能的 part 形式有:
-
All 每个示例的所有部分 i 每个示例的第 i
个部分{i1,i2,…} 每个示例的第 i1、i2、… 个部分 "key" 每个示例中具有指定键的部分 {"key1","key2",…} 每个示例中名称为 "keyi" 的部分 - 当明确指定部分时,提取特征时将删除任何未提及的部分.
- FeatureExtraction[examples] 等价于 FeatureExtraction[examples,Automatic],而这通常又等价于 FeatureExtraction[examples,"NumericVector"].
- "NumericVector" 方法通常会将示例转换为数值向量,填补缺失数据,并使用 DimensionReduction 降低维度.
- 针对单一数据类型的特征提取器方法仅适用于与其类型兼容的数据元素. 其他数据元素将保持不变而返回.
- 当 examples 为 None 时,并非所有特定的特征提取器都可用.
- 具体的提取器是:
- 数值数据:
-
"DiscretizedVector" 离散化的数值数据 "DimensionReducedVector" 降维的数值向量 "MissingImputed" 缺失值被估算的数据 "StandardizedVector" 用 Standardize 处理过的数值数据 - 标称数据:
-
"IndicatorVector" 用指示向量“独热编码”的名义数据 "IntegerVector" 用整数编码的名义数据 - 文本:
-
"LowerCasedText" 每个字符均为小写的文本 "SegmentedCharacters" 分割成字符的文本 "SegmentedWords" 分割成单词的文本 "SentenceVector" 文字的语义向量 "TFIDF" 词频逆向文件频率向量 "WordVectors" 文字的语义向量序列(仅限英文) - 图像:
-
"FaceFeatures" 来自人脸图像的语义向量 "ImageFeatures" 图像的语义向量 "PixelVector" 图像像素值向量 - 音频对象:
-
"AudioFeatures" 音频对象的语义向量序列 "AudioFeatureVector" 音频对象的语义向量 "LPC" 音频线性预测系数 "MelSpectrogram" 用对数频次分组的音频频谱图 "MFCC" 音频梅尔频率倒谱系数向量序列 "SpeakerFeatures" 讲话者的语义向量序列 "SpeakerFeatureVector" 讲话者的语义向量 "Spectrogram" 音频频谱图 - 视频对象:
-
"VideoFeatures" 来自视频对象的语义向量序列 "VideoFeatureVector" 来自视频对象的语义向量 - 图:
-
"GraphFeatures" 总结图的属性的数值向量 - 分子:
-
"AtomPairs" 来自原子对的布尔向量以及它们之间的路径长度 "MoleculeExtendedConnectivity" 来自枚举的分子子图的布尔向量 "MoleculeFeatures" 概括分子属性的数值向量 "MoleculeTopologicalFeatures" 来自圆形原子邻域的布尔向量 - 在 FeatureExtraction[examples,extractors,props] 中,props 可以是单一属性或属性列表. 可能的属性包括:
-
"ExtractorFunction" FeatureExtractorFunction[…](默认) "ExtractedFeatures" 特征提取之后的 examples "ReconstructedData" 提取和逆提取之后的 examples "FeatureDistance" 从提取程序生成的 FeatureDistance[…] - 当示例为 None 时,"ExtractedFeatures" 和 "ReconstructedData" 属性不可用.
- 仅当每个指定的 extractor 都可逆时,才能计算 "ReconstructedData" 属性.
- 可以给出以下选项:
-
FeatureNames Automatic 赋给 examplei 的元素的名称 FeatureTypes Automatic 对 examplei 的元素要假定的特征类型 RandomSeeding 1234 应该在内部对伪随机数生成器进行什么样的初始化 - RandomSeeding 的可能设置包括:
-
Automatic 每次函数调用时自动重新播种 Inherited 使用外部播种的随机数字 seed 用明确给定的整数或字符串作为种子
提取器
属性
选项
范例
打开所有单元 关闭所有单元基本范例 (3)
在简单的数据集上训练 FeatureExtractorFunction:
范围 (32)
输入形状 (9)
提取器规范 (10)
在单个文本特征上指定特征提取器 "SentenceVector":
使用 "StandardizedVector" 方法训练特征提取器:
由于此特征提取器是可逆的,因此可以使用 FeatureExtractorFunction 属性 "OriginalData" 来执行逆提取:
使用 "TFIDF" 方法和 "DimensionReducedVector" 方法在文本上训练特征提取器:
使用纯文本 "TFIDF" 方法在文本和图像上训练特征提取器:
仅对第二个名义变量使用 "IndicatorVector" 方法训练特征提取器:
使用 Identity 提取器方法复制第一个变量:
在列表上使用特征提取器将假定特征的顺序与最初指定的顺序相同:
特征类型 (10)
使用无需训练的 "SentenceVector" 提取器为文本数据创建特征提取器:
输入类型是从指定的提取器推断出来的. 使用特征提取器来处理以下示例:
使用 "IndicatorVector" 方法在名义变量上训练特征提取器:
训练集的词频逆向文件频率矩阵可以在 SparseArray 中计算:
在 DateObject 实例列表上训练特征提取器:
从新的 DateObject 中提取特征:
在 Graph 实例列表上训练特征提取器:
在 TimeSeries 实例列表上训练特征提取器:
在 Molecule 数据上训练特征提取器:
在 Audio 实例列表上训练特征提取器:
信息 (3)
选项 (4)
FeatureNames (2)
使用 FeatureNames 设置名称,并在 FeatureExtraction[examples,{spec1ext1,…}] 中引用它们:
FeatureTypes (2)
在简单数据集上通过 "IndicatorVector" 训练特征提取程序:
第一个特征被解释为数值型. 由于 "IndicatorVector" 方法仅作用于名义特征,第一个特征不变:
使用 FeatureTypes 执行作为名义的第一个特征的诠释:
应用 (3)
图像搜索 (1)
生成关于数据集的提取特征的 NearestFunction:
使用 NearestFunction,构建一个函数,显示数据集的最相近图像:
文本搜索 (1)
生成带有单句特征的 NearestFunction:
使用 NearestFunction,构建一个函数,显示 Alice in Wonderland 中最相近的单句:
估算 (1)
从 ExampleData 中加载 "MNIST" 数据集,并保留图像:
使用 "MissingImputed" 方法创建特征提取程序:
用 Missing[] 替换测试集向量的某些值,并可视化:
使用 FeatureExtractorFunction[…] 估算缺失值:
属性和关系 (4)
FeatureExtraction[…,"ExtractedFeatures"] 等价于 FeatureExtract[…]:
"FeatureDistance" 属性相当于在提取器上使用 FeatureDistance:
首先计算 FeatureExtractorFunction:
在一些训练数据上创建 FeatureExtractorFunction 会创建一个表示这些特征的特征空间:
可能存在的问题 (7)
检查 FeatureExtractorFunction 的特征名称:
FeatureExtraction 属性 "ReconstructedData" 可用于获取提取和重建后的数据:
如果没有训练数据,则无法使用属性 "ReconstructedData":
输入类型为 "Nominal",因此 "LowerCasedText" 提取器忽略输入类型:
类似地,强制输入 "Text" 将导致 "IndicatorVector" 被忽略:
"ConformedData" 提取器需要额外的信息才能在无数据环境中运行:
明确指定 FeatureTypes:
使用 "DimensionReducedVector" 添加降维步骤:
降维必须针对可用特征进行训练,因此在没有提供数据时无法应用:
文本
Wolfram Research (2016),FeatureExtraction,Wolfram 语言函数,https://reference.wolfram.com/language/ref/FeatureExtraction.html (更新于 2021 年).
CMS
Wolfram 语言. 2016. "FeatureExtraction." Wolfram 语言与系统参考资料中心. Wolfram Research. 最新版本 2021. https://reference.wolfram.com/language/ref/FeatureExtraction.html.
APA
Wolfram 语言. (2016). FeatureExtraction. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/FeatureExtraction.html 年
BibTeX
@misc{reference.wolfram_2025_featureextraction, author="Wolfram Research", title="{FeatureExtraction}", year="2021", howpublished="\url{https://reference.wolfram.com/language/ref/FeatureExtraction.html}", note=[Accessed: 17-November-2025]}
BibLaTeX
@online{reference.wolfram_2025_featureextraction, organization={Wolfram Research}, title={FeatureExtraction}, year={2021}, url={https://reference.wolfram.com/language/ref/FeatureExtraction.html}, note=[Accessed: 17-November-2025]}