AudioLocalMeasurements
AudioLocalMeasurements[audio,"prop"]
为 audio 分区计算局部属性 "prop".
AudioLocalMeasurements[audio,{"prop1","prop2",…}]
计算数个属性 "propi".
AudioLocalMeasurements[audio,"prop",format]
在指定输出 format 中返回测量值.
AudioLocalMeasurements[video,…]
计算 video 中第一条音轨的测量值.
更多信息和选项
- AudioLocalMeasurements 也叫作音频特征或描述符.
- AudioLocalMeasurements 为每个分区返回一个带有测量的 TimeSeries.
- 在平均通道值中计算音频测量.
- 基本直方图属性:
-
"Max" 最大值 "MaxAbs" 最大绝对值 "Min" 最小值 "MinAbs" 最小绝对值 "MinMax" 最小和最大值 "MinMaxAbs" 最小和最大绝对值 "Mean" 平均值 "Median" 中间值 "StandardDeviation" 数值的标准差 "Total" 数值总和 - 强度属性:
-
"Power" 根号平均值 "RMSAmplitude" 均方根值 "Loudness" 估算响度计量 - 响度属性使用斯蒂芬幂法则(Steven's power law),使用 计算.
- 时间方面属性:
-
"CrestFactor" 最大值除以均方根值 "Entropy" 值的熵 "LPC" 线性预测系数 "PeakToAveragePowerRatio" 最大幂除以平均幂 "TemporalCentroid" 数值的时域质心 "ZeroCrossingRate" 零交叉率 "ZeroCrossings" 分区的零交叉数量 - "LPC" 属性返回用线性预测代码估算出的 12 个系数. 使用 {"LPC",n} 返回 n 个系数.
- 线性预测系数(LPC)通常用于语音信号的分析和编码.
- 时域质心(temporal centroid)属性给出每个分区的重心. 值为 0.5 的时域质心意思是分区的中心,然后 0 和 1 对应分区的开头和结尾.
- 频率方面属性:
-
"FundamentalFrequency" 估算基础频率 "Formants" 信号的共振峰频率 "HighFrequencyContent" 功率谱的线性加权平均值 "MFCC" 梅尔频率倒谱系数 "SpectralCentroid" 功率谱的质心 "SpectralCrest" 最大值除以功率谱的平均值 "SpectralFlatness" 几何平均除以功率谱的平均值 "SpectralKurtosis" 幅度谱的峰度 "SpectralRollOff" 大部分能量频率集中在该值之下的频率 "SpectralSkewness" 幅度谱的峰度 "SpectralSlope" 幅度谱的估算斜率 "SpectralSpread" 功率谱的带宽计量 - 使用 {"FundamentalFrequency",thr,minfreq,maxfreq},仅返回频率范围在 minfreq 和 maxfreq 之间置信区间为 thr 或更高的频率. 默认值对包括语音和乐器的信号优化.
- 使用 {"Formants",n,m} 时,可通过 m 个 LPC 系数返回最多 n 个共振峰. 缺省情况下,,m 取决于输入的采样率.
- 属性 MFCC 返回 13 个系数. 使用 {"MFCC",n,m,minfreq,maxfreq},返回 n 个系数,使用频率范围位于 minfreq 和 maxfreq 之间的 m 个滤波器.
- 在连续分区上计算频率方面属性:
-
"ComplexDomainDistance" 预测出和测量出的傅里叶(Fourier)之间的距离 "ModifiedKullbackLeibler" 波谱间经调整的 KL 距离(Kullback–Liebler distance) "Novelty" 重大变化的预估测量 "PhaseDeviation" 预测出和测量出的傅里叶(Fourier)之间的相位差 "SpectralFlux" 连续光谱间差异的范数 - 语音属性:
-
"VoiceActivity" 是否检测到语音活动(0 和 1 秒) - 语音属性:
-
"SpeechAperiodicity" 非周期性(噪音)成分 "SpeechFundamentalFrequency" 基础频率 "SpeechSpectralEnvelope" 平滑频谱图数据 - 默认情况下,返回属性值列表. 其他 format 规格说明包括:
-
Automatic 自动决定输出 "Association" 将结果格式化为一个 Association "Dataset" 将结果格式化为一个 Dataset "List" 将结果格式化为一个 List "RuleList" 将结果格式化为一个 Rule 表达式列表 - 可给出如下选项:
-
Alignment Center 对齐带分区的时间戳 FourierParameters {-1,1} 傅里叶参数 Padding Automatic 填充设计 PaddingSize Automatic 填充量 PartitionGranularity Automatic 音频分区规格说明 MetaInformation None 包括额外的元信息 MissingDataMethod None 用于确实数据的方法 ResamplingMethod Automatic 用于重采样路径的方法 - 默认情况下,量度在每个分区中心返回. 使用 Alignment 选项,则在每个分区的开头(Left)或结束(Right)返回量度.
- 默认情况下,信号填充值为在开头和结尾两段带有无声片段的分区尺寸的一半. 对于 Padding 的可能设置,参阅 AudioPad 的参考页面.
范例
打开所有单元关闭所有单元基本范例 (3)
范围 (24)
基本用法 (1)
时域属性 (6)
选项 (5)
校准 (1)
TimeSeries 结果的时间戳默认放置于每个分段的中心:
应用 (4)
使用 WarpingCorrespondence 计算介于俩记录间的动态时间翘曲响应:
使用 "MFCC" 测量作为特性,计算 ExampleData["Audio"] 不同元素间的距离:
可能存在的问题 (1)
"FundamentalFrequency" 返回无法估计(帧率可能包含切片或复调音频)基本频率分段的 Missing[] 值:
巧妙范例 (3)
使用 AudioGenerator 重复长笛音符的频率和幅度:
计算 "RMSAmplitude" 和 "FundamentalFrequency" 度量:
文本
Wolfram Research (2016),AudioLocalMeasurements,Wolfram 语言函数,https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html (更新于 2024 年).
CMS
Wolfram 语言. 2016. "AudioLocalMeasurements." Wolfram 语言与系统参考资料中心. Wolfram Research. 最新版本 2024. https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html.
APA
Wolfram 语言. (2016). AudioLocalMeasurements. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html 年