AudioLocalMeasurements

AudioLocalMeasurements[audio,"prop"]

为 audio 分区计算局部属性 "prop".

AudioLocalMeasurements[audio,{"prop₁","prop₂",…}]

计算数个属性 "prop_i".

AudioLocalMeasurements[audio,"prop",format]

在指定输出 format 中返回测量值.

AudioLocalMeasurements[video,…]

计算 video 中第一条音轨的测量值.

更多信息和选项

AudioLocalMeasurements 也叫作音频特征或描述符.
AudioLocalMeasurements 为每个分区返回一个带有测量的 TimeSeries.

在平均通道值中计算音频测量.
基本直方图属性：

	"Max"	最大值
	"MaxAbs"	最大绝对值
	"Min"	最小值
	"MinAbs"	最小绝对值
	"MinMax"	最小和最大值
	"MinMaxAbs"	最小和最大绝对值
	"Mean"	平均值
	"Median"	中间值
	"StandardDeviation"	数值的标准差
	"Total"	数值总和

强度属性：
"Power" 根号平均值

"RMSAmplitude" 均方根值

"Loudness" 估算响度计量
响度属性使用斯蒂芬幂法则（Steven's power law），使用计算.
时间方面属性：

	"CrestFactor"	最大值除以均方根值
	"Entropy"	值的熵
	"LPC"	线性预测系数
	"PeakToAveragePowerRatio"	最大幂除以平均幂
	"TemporalCentroid"	数值的时域质心
	"ZeroCrossingRate"	零交叉率
	"ZeroCrossings"	分区的零交叉数量

"LPC" 属性返回用线性预测代码估算出的 12 个系数. 使用 {"LPC",n} 返回 n 个系数.
线性预测系数（LPC）通常用于语音信号的分析和编码.
时域质心（temporal centroid）属性给出每个分区的重心. 值为 0.5 的时域质心意思是分区的中心，然后 0 和 1 对应分区的开头和结尾.
频率方面属性：

	"FundamentalFrequency"	估算基础频率
	"Formants"	信号的共振峰频率
	"HighFrequencyContent"	功率谱的线性加权平均值
	"MFCC"	梅尔频率倒谱系数
	"SpectralCentroid"	功率谱的质心
	"SpectralCrest"	最大值除以功率谱的平均值
	"SpectralFlatness"	几何平均除以功率谱的平均值
	"SpectralKurtosis"	幅度谱的峰度
	"SpectralRollOff"	大部分能量频率集中在该值之下的频率
	"SpectralSkewness"	幅度谱的峰度
	"SpectralSlope"	幅度谱的估算斜率
	"SpectralSpread"	功率谱的带宽计量

使用 {"FundamentalFrequency",thr,minfreq,maxfreq}，仅返回频率范围在 minfreq 和 maxfreq 之间置信区间为 thr 或更高的频率. 默认值对包括语音和乐器的信号优化.
使用 {"Formants",n,m} 时，可通过 m 个 LPC 系数返回最多 n 个共振峰. 缺省情况下，，m 取决于输入的采样率.
属性 MFCC 返回 13 个系数. 使用 {"MFCC",n,m,minfreq,maxfreq}，返回 n 个系数，使用频率范围位于 minfreq 和 maxfreq 之间的 m 个滤波器.
在连续分区上计算频率方面属性：

	"ComplexDomainDistance"	预测出和测量出的傅里叶（Fourier）之间的距离
	"ModifiedKullbackLeibler"	波谱间经调整的 KL 距离（Kullback–Liebler distance）
	"Novelty"	重大变化的预估测量
	"PhaseDeviation"	预测出和测量出的傅里叶（Fourier）之间的相位差
	"SpectralFlux"	连续光谱间差异的范数

语音属性：
"VoiceActivity" 是否检测到语音活动（0 和 1 秒）
语音属性：
"SpeechAperiodicity" 非周期性（噪音）成分

"SpeechFundamentalFrequency" 基础频率

"SpeechSpectralEnvelope" 平滑频谱图数据
默认情况下，返回属性值列表. 其他 format 规格说明包括：

	Automatic	自动决定输出
	"Association"	将结果格式化为一个 Association
	"Dataset"	将结果格式化为一个 Dataset
	"List"	将结果格式化为一个 List
	"RuleList"	将结果格式化为一个 Rule 表达式列表

可给出如下选项：

Alignment	Center	对齐带分区的时间戳
FourierParameters	{-1,1}	傅里叶参数
Padding	Automatic	填充设计
PaddingSize	Automatic	填充量
PartitionGranularity	Automatic	音频分区规格说明
MetaInformation	None	包括额外的元信息
MissingDataMethod	None	用于确实数据的方法
ResamplingMethod	Automatic	用于重采样路径的方法

默认情况下，量度在每个分区中心返回. 使用 Alignment 选项，则在每个分区的开头（Left）或结束（Right）返回量度.
默认情况下，信号填充值为在开头和结尾两段带有无声片段的分区尺寸的一半. 对于 Padding 的可能设置，参阅 AudioPad 的参考页面.

范例

打开所有单元关闭所有单元

基本范例 (3)

计算音频振幅的均方根：

绘制测量结果：

计算 Video 对象的第一个音轨的 RMS（均方根）振幅：

绘制测量值：

计算多个测量结果：

绘制测量结果：

范围 (24)

基本用法 (1)

将输出格式化为 Association:

返回一个 TimeSeries 列表：

返回一个规则列表：

返回一个 Dataset：

直方图属性 (2)

基本直方图属性：

统计直方图属性：

强度属性 (1)

基于强度的基本属性：

时域属性 (6)

属性 "CrestFactor" 测量最高值和在分段上的 RMS 的比例. "PeakToAveragePowerRatio" 计算相同值的平方：

属性 "TemporalCentroid" 计算每个分段的能量分布比重中心：

输出值的边界在 0 和 1 之间，其中 0 代表全部能量都集中在开始分段.

"ZeroCrossings" 返回在分段中的零的数目； "ZeroCrossingRate" 正态化分段的时间长度：

属性 "LPC" 返回用线性预测编码估计的 12 个系数：

控制具有高采样率的音频对象的 LPC 系数数目：

提取信号共振峰的频率：

控制用于计算的共振峰和 LPC 系数的数目：

音频信号的熵：

频率域属性 (8)

"SpectralCrest" 测量功率谱的最大值和均值的比率：

谱能量的 95% 集中在 "SpectralRollOff" 所测量的频率值之下：

"SpectralSlope" 是功率谱斜率的度量：

"SpectralFlatness" 是功率谱平坦度的度量：

计算功率谱的常用统计属性：

"FundamentalFrequency" 估计单声道音频的基本频率：

控制探测的敏感度：

控制执行探测所在的频率范围：

"HighFrequencyContent" 使用随频率线性增加的加权计算平均功率谱:

频谱的线性加权为更高频谱端添加更多重要性，使得 "HighFrequencyContent" 成为瞬态检测的最佳候选.

属性 "MFCC" 返回 12 个梅尔频率倒谱系数：

控制系数和滤波器的数目，以及频率范围：

在邻域部分计算的频域属性 (2)

基于两个相邻帧间傅里叶变换的距离的不同测量属性：

属性 "Novelty" 计算与邻域时间帧相差多少：

语音和扬声器属性 (4)

"VoiceActivity" 属性是语音信号的有声部分的指示符功能：

通过音频波形图显示语音活动：

使用较小的 10 毫秒窗口来提高分辨率：

"SpeechFundamentalFrequency" 属性估计语音的基本频率：

"SpeechSpectralEnvelope" 属性返回信号频谱包络的系数：

绘制结果：

"SpeechAperiodicity" 属性返回信号的非周期性分量的系数：

绘制结果值：

选项 (5)

校准 (1)

TimeSeries 结果的时间戳默认放置于每个分段的中心：

使用 Alignment->Right 将计算的属性放置于每个分段的结尾：

填补 (1)

在默认情况下，使用 "Silent" 填补：

使用 "Reversed" 填补：

填补大小 (1)

在默认情况下，等于分段大小一半的填补应用与信号的末端：

增加填补量：

在信号开始和结束部分使用不同填补量：

PartitionGranularity (2)

指定 100 ms 大小的分段：

使用 10 ms 的补偿：

使用平滑视窗：

所有频域属性默认使用平滑视窗：

应用 (4)

探测复杂音频信号中的瞬态：

通过对于原始信号多个测量的平均化计算 "探测函数"：

用自适应阈值过滤探测函数：

找出过滤后的探测函数的峰值：

绘制在波形中探测到得瞬态：

计算音频对象的信号

计算 MFCC 特性并提取数值：

绘制距离矩阵结果：

使用动态时间翘曲比较同样序列的两个记录：

计算并绘制记录的 MFCC 特性：

使用 WarpingCorrespondence 计算介于俩记录间的动态时间翘曲响应：

绘制两个记录间的响应：

使用 "MFCC" 测量作为特性，计算 ExampleData["Audio"] 不同元素间的距离：

可能存在的问题 (1)

"FundamentalFrequency" 返回无法估计（帧率可能包含切片或复调音频）基本频率分段的 Missing[] 值：

未定义复调音频的基本频率：

巧妙范例 (3)

使用 AudioGenerator 重复长笛音符的频率和幅度：

计算 "RMSAmplitude" 和 "FundamentalFrequency" 度量：

使用 "FundamentalFrequency" 度量控制结果的频率：

使用 "RMSAmplitude" 度量控制幅度：

莫尔斯电码译码：

计算信号的 RMS 振幅并进行取整：

仅选择有瞬态的点：

确保第一个点为 t=0 并计算最小的时间增加：

定义莫尔斯电码映射：

信号译码：

创建音频对象波形的三维打印模型：

计算 "Min" 和 "Max" 度量：

创建波形的三维模型：

三维打印模型：

顶部

	"Power"	根号平均值
	"RMSAmplitude"	均方根值
	"Loudness"	估算响度计量

	"SpeechAperiodicity"	非周期性（噪音）成分
	"SpeechFundamentalFrequency"	基础频率
	"SpeechSpectralEnvelope"	平滑频谱图数据