AudioLocalMeasurements

AudioLocalMeasurements[audio,"prop"]

audio 分区计算局部属性 "prop".

AudioLocalMeasurements[audio,{"prop1","prop2",}]

计算数个属性 "propi".

AudioLocalMeasurements[audio,"prop",format]

在指定输出 format 中返回测量值.

AudioLocalMeasurements[video,]

计算 video 中第一条音轨的测量值.

更多信息和选项

  • AudioLocalMeasurements 也叫作音频特征或描述符.
  • AudioLocalMeasurements 为每个分区返回一个带有测量的 TimeSeries.
  • 在平均通道值中计算音频测量.
  • 基本直方图属性:
  • "Max"最大值
    "MaxAbs"最大绝对值
    "Min"最小值
    "MinAbs"最小绝对值
    "MinMax"最小和最大值
    "MinMaxAbs"最小和最大绝对值
    "Mean"平均值
    "Median"中间值
    "StandardDeviation"数值的标准差
    "Total"数值总和
  • 强度属性:
  • "Power"根号平均值
    "RMSAmplitude"均方根值
    "Loudness"估算响度计量
  • 响度属性使用斯蒂芬幂法则(Steven's power law),使用 计算.
  • 时间方面属性:
  • "CrestFactor"最大值除以均方根值
    "Entropy"值的熵
    "LPC"线性预测系数
    "PeakToAveragePowerRatio"最大幂除以平均幂
    "TemporalCentroid"数值的时域质心
    "ZeroCrossingRate"零交叉率
    "ZeroCrossings"分区的零交叉数量
  • "LPC" 属性返回用线性预测代码估算出的 12 个系数. 使用 {"LPC",n} 返回 n 个系数.
  • 线性预测系数(LPC)通常用于语音信号的分析和编码.
  • 时域质心(temporal centroid)属性给出每个分区的重心. 值为 0.5 的时域质心意思是分区的中心,然后 0 和 1 对应分区的开头和结尾.
  • 频率方面属性:
  • "FundamentalFrequency"估算基础频率
    "Formants"信号的共振峰频率
    "HighFrequencyContent"功率谱的线性加权平均值
    "MFCC"梅尔频率倒谱系数
    "SpectralCentroid"功率谱的质心
    "SpectralCrest"最大值除以功率谱的平均值
    "SpectralFlatness"几何平均除以功率谱的平均值
    "SpectralKurtosis"幅度谱的峰度
    "SpectralRollOff"大部分能量频率集中在该值之下的频率
    "SpectralSkewness"幅度谱的峰度
    "SpectralSlope"幅度谱的估算斜率
    "SpectralSpread"功率谱的带宽计量
  • 使用 {"FundamentalFrequency",thr,minfreq,maxfreq},仅返回频率范围在 minfreqmaxfreq 之间置信区间为 thr 或更高的频率. 默认值对包括语音和乐器的信号优化.
  • 使用 {"Formants",n,m} 时,可通过 m 个 LPC 系数返回最多 n 个共振峰. 缺省情况下,m 取决于输入的采样率.
  • 属性 MFCC 返回 13 个系数. 使用 {"MFCC",n,m,minfreq,maxfreq},返回 n 个系数,使用频率范围位于 minfreqmaxfreq 之间的 m 个滤波器.
  • 在连续分区上计算频率方面属性:
  • "ComplexDomainDistance"预测出和测量出的傅里叶(Fourier)之间的距离
    "ModifiedKullbackLeibler"波谱间经调整的 KL 距离(KullbackLiebler distance)
    "Novelty"重大变化的预估测量
    "PhaseDeviation"预测出和测量出的傅里叶(Fourier)之间的相位差
    "SpectralFlux"连续光谱间差异的范数
  • 语音属性:
  • "VoiceActivity"是否检测到语音活动(0 和 1 秒)
  • 语音属性:
  • "SpeechAperiodicity"非周期性(噪音)成分
    "SpeechFundamentalFrequency"基础频率
    "SpeechSpectralEnvelope"平滑频谱图数据
  • 默认情况下,返回属性值列表. 其他 format 规格说明包括:
  • Automatic自动决定输出
    "Association"将结果格式化为一个 Association
    "Dataset"将结果格式化为一个 Dataset
    "List"将结果格式化为一个 List
    "RuleList"将结果格式化为一个 Rule 表达式列表
  • 可给出如下选项:
  • AlignmentCenter对齐带分区的时间戳
    FourierParameters{-1,1}傅里叶参数
    PaddingAutomatic填充设计
    PaddingSizeAutomatic填充量
    PartitionGranularity Automatic音频分区规格说明
    MetaInformationNone包括额外的元信息
    MissingDataMethodNone用于确实数据的方法
    ResamplingMethodAutomatic用于重采样路径的方法
  • 默认情况下,量度在每个分区中心返回. 使用 Alignment 选项,则在每个分区的开头(Left)或结束(Right)返回量度.
  • 默认情况下,信号填充值为在开头和结尾两段带有无声片段的分区尺寸的一半. 对于 Padding 的可能设置,参阅 AudioPad 的参考页面.

范例

打开所有单元关闭所有单元

基本范例  (3)

计算音频振幅的均方根:

绘制测量结果:

计算 Video 对象的第一个音轨的 RMS(均方根)振幅:

绘制测量值:

计算多个测量结果:

绘制测量结果:

范围  (24)

基本用法  (1)

将输出格式化为 Association:

返回一个 TimeSeries 列表:

返回一个规则列表:

返回一个 Dataset

直方图属性  (2)

基本直方图属性:

统计直方图属性:

强度属性  (1)

基于强度的基本属性:

时域属性  (6)

属性 "CrestFactor" 测量最高值和在分段上的 RMS 的比例. "PeakToAveragePowerRatio" 计算相同值的平方:

属性 "TemporalCentroid" 计算每个分段的能量分布比重中心:

输出值的边界在 0 和 1 之间,其中 0 代表全部能量都集中在开始分段.

"ZeroCrossings" 返回在分段中的零的数目; "ZeroCrossingRate" 正态化分段的时间长度:

属性 "LPC" 返回用线性预测编码估计的 12 个系数:

控制具有高采样率的音频对象的 LPC 系数数目:

提取信号共振峰的频率:

控制用于计算的共振峰和 LPC 系数的数目:

音频信号的熵:

频率域属性  (8)

"SpectralCrest" 测量功率谱的最大值和均值的比率:

谱能量的 95% 集中在 "SpectralRollOff" 所测量的频率值之下:

"SpectralSlope" 是功率谱斜率的度量:

"SpectralFlatness" 是功率谱平坦度的度量:

计算功率谱的常用统计属性:

"FundamentalFrequency" 估计单声道音频的基本频率:

控制探测的敏感度:

控制执行探测所在的频率范围:

"HighFrequencyContent" 使用随频率线性增加的加权计算平均功率谱:

频谱的线性加权为更高频谱端添加更多重要性,使得 "HighFrequencyContent" 成为瞬态检测的最佳候选.

属性 "MFCC" 返回 12 个梅尔频率倒谱系数:

控制系数和滤波器的数目,以及频率范围:

在邻域部分计算的频域属性  (2)

基于两个相邻帧间傅里叶变换的距离的不同测量属性:

属性 "Novelty" 计算与邻域时间帧相差多少:

语音和扬声器属性  (4)

"VoiceActivity" 属性是语音信号的有声部分的指示符功能:

通过音频波形图显示语音活动:

使用较小的 10 毫秒窗口来提高分辨率:

"SpeechFundamentalFrequency" 属性估计语音的基本频率:

"SpeechSpectralEnvelope" 属性返回信号频谱包络的​​系数:

绘制结果:

"SpeechAperiodicity" 属性返回信号的非周期性分量的系数:

绘制结果值:

选项  (5)

校准  (1)

TimeSeries 结果的时间戳默认放置于每个分段的中心:

使用 Alignment->Right 将计算的属性放置于每个分段的结尾:

填补  (1)

在默认情况下,使用 "Silent" 填补:

使用 "Reversed" 填补:

填补大小  (1)

在默认情况下,等于分段大小一半的填补应用与信号的末端:

增加填补量:

在信号开始和结束部分使用不同填补量:

PartitionGranularity  (2)

指定 100 ms 大小的分段:

使用 10 ms 的补偿:

使用平滑视窗:

所有频域属性默认使用平滑视窗:

应用  (4)

探测复杂音频信号中的瞬态:

通过对于原始信号多个测量的平均化计算 "探测函数":

用自适应阈值过滤探测函数:

找出过滤后的探测函数的峰值:

绘制在波形中探测到得瞬态:

计算音频对象的信号

计算 MFCC 特性并提取数值:

绘制距离矩阵结果:

使用动态时间翘曲比较同样序列的两个记录:

计算并绘制记录的 MFCC 特性:

使用 WarpingCorrespondence 计算介于俩记录间的动态时间翘曲响应:

绘制两个记录间的响应:

使用 "MFCC" 测量作为特性,计算 ExampleData["Audio"] 不同元素间的距离:

可能存在的问题  (1)

"FundamentalFrequency" 返回无法估计(帧率可能包含切片或复调音频)基本频率分段的 Missing[] 值:

未定义复调音频的基本频率:

巧妙范例  (3)

使用 AudioGenerator 重复长笛音符的频率和幅度:

计算 "RMSAmplitude""FundamentalFrequency" 度量:

使用 "FundamentalFrequency" 度量控制结果的频率:

使用 "RMSAmplitude" 度量控制幅度:

莫尔斯电码译码:

计算信号的 RMS 振幅并进行取整:

仅选择有瞬态的点:

确保第一个点为 t=0 并计算最小的时间增加:

定义莫尔斯电码映射:

信号译码:

创建音频对象波形的三维打印模型:

计算 "Min""Max" 度量:

创建波形的三维模型:

三维打印模型:

Wolfram Research (2016),AudioLocalMeasurements,Wolfram 语言函数,https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html (更新于 2024 年).

文本

Wolfram Research (2016),AudioLocalMeasurements,Wolfram 语言函数,https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html (更新于 2024 年).

CMS

Wolfram 语言. 2016. "AudioLocalMeasurements." Wolfram 语言与系统参考资料中心. Wolfram Research. 最新版本 2024. https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html.

APA

Wolfram 语言. (2016). AudioLocalMeasurements. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html 年

BibTeX

@misc{reference.wolfram_2024_audiolocalmeasurements, author="Wolfram Research", title="{AudioLocalMeasurements}", year="2024", howpublished="\url{https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html}", note=[Accessed: 21-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_audiolocalmeasurements, organization={Wolfram Research}, title={AudioLocalMeasurements}, year={2024}, url={https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html}, note=[Accessed: 21-November-2024 ]}