"AudioMelSpectrogram" (神经网络编码器)

NetEncoder["AudioMelSpectrogram"]

表示一个编码器，将音频文件或对象转换成梅尔频谱图.

NetEncoder[{"AudioMelSpectrogram","param"->val,…}]

表示一个编码器，具有用于预处理和特征计算的特定参数.

更多信息

"AudioMelSpectrogram" 编码器计算幅度频谱图并应用于滤波器组，其滤波器中心在梅尔频率标度上是线性间隔. 这样做是为了模仿人类对音高的感知，这是非线性的. 滤波器的数量始终小于频谱图箱的数量，因此降低了特征的维数.
NetEncoder[…][input] 对一个输入应用编码器，产生一个输出.
NetEncoder[…][{input₁,input₂,…}] 对一系列输入应用编码器，产生一系列输出 .
编码器的输入可以为 Audio 对象或 File[…] 表达式.
通过使用 nf 个带通滤波器对频谱进行滤波来计算输出，带通滤波器的中心频率是梅尔刻度上的线性间隔.
编码器的输出是一个维度为 {n,nf} 的 2 阶张量，其中 n 是应用预处理后的分区的数量，nf 是用于计算的滤波器的数量.
在构建网络时，可通过指定 "port"->NetEncoder[…] 将编码器添加到网络的输入端口上.

参数

支持以下通用参数：

"Augmentation"	None	是否应用增广
"Normalization"	None	是否应用归一化
"SampleRate"	16000	目标采样率
"TargetLength"	All	目标输出长度

其他分区参数：
"WindowSize" Automatic 分区的长度

"Offset" Automatic 分区的偏移

"WindowFunction" Automatic 应用于分区的视窗
梅尔频谱参数：

"MaximumFrequency"	Automatic	梅尔滤波器的最大频率
"MinimumFrequency"	Automatic	梅尔滤波器的最小频率
"NumberOfFilters"	40	梅尔滤波器的数量

可以为每个编码器参数指定以下设置和子选项.
"Normalization" 可以接受以下设置：

	None	无归一化
	"Max"	绝对最大值归一化到 1
	{"Max",val}	绝对最大值归一化到 val
	{"RMS",val}	输入音频信号的 RMS 归一化到 val

"TargetLength" 可以接受以下设置：
All 与输入信号一样

dur 持续时间 dur 被指定为时间量

n 前 n 个分区
如果指定的 "TargetLength" 不匹配输入信号的长度，则会进行填充或修剪.
"Augmentation" 可用以下键被指定为规则列表：

"Convolution"	None	在输入卷积脉冲响应
"Noise"	None	在输入中添加噪声
"TimeShift"	None	将输入移动指定的量
"Volume"	None	用常量乘以输入
"VTLP"	None	将声道长度扰动应用于输入

任何接受数值的增广参数也会被指定为两个数的列表或单变量分布. 在第一种情况下，会根据给定边界间的均匀分布随机化值. 在第二种情况，会使用用户提供的分布.
"Convolution" 的可能值包括：
None 无增广

signal File 或 Audio 对象与输入卷积

{mix,signal} 与输入和 mix 参数卷积的信号
"Noise" 可能的值包括：

	None	无增广
	amp	带有幅度 amp 的白噪声
	noise	File 或 Audio 对象包含要添加的噪声信号
	{amp,noise}	噪声信号和其指定的幅度

使用 "TimeShift"->t 移动输入 t 秒、如果必要则进行填充或剪裁. 使用 Scaled[s] 移动输入 s×dur 秒，其中，dur 是输入信号的持续时间. 使用 {t₁,t₂} 或 Scaled[{ts₁,t₂}] 随机化指定时间之间的移动.
使用 "Volume"->val 指定常量乘数.
声道长度扰动 (VTLP) 将梅尔谱图中滤波频率的中心值乘以固定量. 使用 "VTLP"val 指定扰动量.
当参数为 "WindowSize"->Automatic 时，使用 25 毫秒分区长度. 使用 "WindowSize"->dur 选择持续时间 dur 的分区长度. 使用 "WindowSize"->n 选择 n 个样本的分区长度.
当参数为 "Offset"->Automatic 时，使用 8.33 毫秒的分区补偿. 使用 "Offset"->dur 选择持续时间 dur 的分区补偿. 使用 "Offset"->n 选择 n 个样本的分区补偿.
参数 "WindowFunction" 将窗口应用于每个分区. 可能的设置为：
None 没有视窗应用于输入音频

Automatic

func 使用函数 func 计算视窗

list 明确指定采样窗口 list
当参数设置为 "MinimumFrequency"->Automatic 时，用 Ceiling[sr/ws] 计算频率，其中 sr 为采样率 "SampleRate"，ws 是分区长度 "WindowSize". 用 "MinimumFrequency"f 设定滤波器的最小频率为 f.
当参数设置为r "MaximumFrequency"->Automatic 时，用 Round[Min[8000,sr/2]]] 计算频率，其中 sr 为采样率 "SampleRate". 用 "MaximumFrequency"f 设定滤波器的最大频率为 f.
当参数设置为 "NumberOfFilters"->n 时，在梅尔频谱的计算中将使用 n 个滤波器.

范例

打开所有单元关闭所有单元

基本范例 (1)

创建梅尔频谱 NetEncoder：

创建一个 Audio 对象：

对 Audio 对象应用编码器：

绘制结果：

范围 (3)

NetEncoder["AudioMelSpectrogram"] 可对 File 或 Audio 对象进行编码. 创建一个梅尔频谱编码器：

对 File 对象应用编码器：

对核内 Audio 对象应用该编码器：

对核外 Audio 对象应用该编码器：

创建 Audio 对象列表：

对一批输入应用 NetEncoder["AudioMelSpectrogram"]：

创建一个梅尔频谱 NetEncoder：

将编码器添加到网络的输入上：

对 Audio 对象应用该网络：

Parameters (9)

"Normalization" (1)

创建一个 Audio 对象：

应用编码器，设 "Normalization"->None 避免归一化：

由于在计算频谱图之前对信号应用了归一化，因此不能保证结果的界限：

应用编码器，设 "Normalization"->Automatic 将波形样本的最大绝对值归一化为 1：

求结果的最小值和最大值：

"SampleRate" (2)

创建一个 Audio 对象：

在进行短时傅立叶变换之前用 "SampleRate"8000 的编码器将信号重新采样为 8000Hz：

"SampleRate" 参数会影响默认窗口大小的计算：

采样率低于原始音频的编码器会给出更短的窗口长度：

采样率高于原始音频的编码器会给出更长的窗口长度：

"TargetLength" (1)

创建一个 Audio 对象：

应用编码器，设 "TargetLength"All 将返回所有数据的梅尔频谱：

应用编码器，设 "TargetLength"10，用零进行填充，使输出长度为 10：

应用编码器，设 "TargetLength"2，只使用前两个分区：

"WindowSize" (1)

分区长度被自动定为 25ms：

应用编码器，设 "WindowSize"600，返回分区大小为 600 个样本情况下的梅尔频谱：

"Offset" (1)

创建一个 Audio 对象：

分区偏移被自动设为分区长度的 1/3：

应用编码器，设 "Offset"10，返回使用偏移量为 10 个样本的分区时算出的梅尔频谱：

"MinimumFrequency" (1)

创建一个 Audio 对象：

用 Ceiling[sr/ws] 自动计算最小频率，其中 sr 为采样率 "SampleRate"，ws 是分区长度 "WindowSize"：

应用编码器，设 "MinimumFrequency"2000，返回用最小频率为 2000Hz 的滤波器算出的梅尔频谱：

"MaximumFrequency" (1)

创建一个 Audio 对象：

用 Round[Min[8000,sr/2]]] 自动计算最大频率，其中 sr 为采样率 "SampleRate"：

应用编码器，设 "MaximumFrequency"2000，返回用最大频率为 2000Hz 的滤波器算出的梅尔频谱：

"NumberOfFilters" (1)

创建一个 Audio 对象：

默认情况下，在梅尔频谱的计算中使用 40 个滤波器：

应用编码器，设 "NumberOfFilters"128，返回用 128 个滤波器算出的梅尔频谱：

属性和关系 (1)

创建一个 Audio 对象：

创建梅尔频谱 NetEncoder：

可用 Ceiling[length/offset] 来计算结果的长度，其中 length 是重新采样后信号的长度，offset 是编码器的 "Offset" 参数：

顶部

更多学习资源

技术支持

成人教育计划

青少年教育计划

活动

Wolfram 倡议

教育资源

爱好与项目

Wolfram 解决方案

Wolfram 的教育解决方案

开始

提高你的技能

与我们合作

欢迎阅读

成人教育计划

青少年教育计划

活动

"AudioMelSpectrogram" (神经网络编码器)

更多信息

参数

范例

基本范例 (1)

范围 (3)

Parameters (9)

"Normalization" (1)

"SampleRate" (2)

"TargetLength" (1)

"WindowSize" (1)

"Offset" (1)

"MinimumFrequency" (1)

"MaximumFrequency" (1)

"NumberOfFilters" (1)

属性和关系 (1)

"WindowSize"	Automatic	分区的长度
"Offset"	Automatic	分区的偏移
"WindowFunction"	Automatic	应用于分区的视窗

	All	与输入信号一样
	dur	持续时间 dur 被指定为时间量
	n	前 n 个分区

	None	无增广
	signal	File 或 Audio 对象与输入卷积
	{mix,signal}	与输入和 mix 参数卷积的信号

	None	没有视窗应用于输入音频
	Automatic
	func	使用函数 func 计算视窗
	list	明确指定采样窗口 list

"AudioMelSpectrogram" (神经网络编码器)

更多信息

参数

范例

基本范例 (1)

范围 (3)

Parameters (9)

"Normalization" (1)

"SampleRate" (2)

"TargetLength" (1)

"WindowSize" (1)

"Offset" (1)

"MinimumFrequency" (1)

"MaximumFrequency" (1)

"NumberOfFilters" (1)

属性和关系 (1)

参见

技术笔记

相关指南

历史