AudioDistance

AudioDistance[audio1,audio2]

返回 audio1audio2 间的距离度量.

AudioDistance[video1,video2]

返回 video1video2 音轨之间的距离测量值.

更多信息和选项

  • AudioDistance 计算音频对象间的不相似度量,可能使用不同的距离函数比较信号的波形或其他特征.
  • 如果 audio1audio2 是不同的长度,默认情况下,把信号修建为更短的长度,然后计算距离.
  • 可以指定以下选项:
  • DistanceFunctionAutomatic使用的距离函数
    MaskingAutomatic用于比较的音频区间
    PartitionGranularityAutomatic音频分区规范
    SampleRateAutomatic符合 audioi 的采样率
  • 默认情况下,使用 DistanceFunction->Automatic,计算音频波形的 EuclideanDistance. 使用不同的距离函数或不同的特征计算其他度量.
  • 以下距离函数是根据 audioi 的傅里叶变换计算的:
  • "SpectralEuclidean"应用于功率谱的欧几里得(默认)
    "SpectralItakuraSaito"LPC 衍生的光谱包络的最大似然性
    "SpectralMagnitudePhaseDistortion"幅度和相位频谱距离的平均
    "SpectralRMSLog"应用于功率谱对数的欧几里得
    "SpectralFirstOrderDifferential"一阶频谱导数间的距离
    "SpectralSecondOrderDifferential"二阶频谱导数间的距离
    "Cepstral"应用于功率倒谱的欧几里得
  • 还有其他 DistanceFunction 设置并可用于不同的音频特征:
  • EuclideanDistance欧几里得距离
    SquaredEuclideanDistance平方的欧几里得距离
    NormalizedSquaredEuclideanDistance正则化的平方欧几里得距离
    RootMeanSquare均方根距离
    ManhattanDistance曼哈顿或城市区块 (city block)距离
    CosineDistance角余弦距离
    CorrelationDistance相关系数距离
    WarpingDistance动态时间规整 (DTW) 距离
    f任意函数 f
  • 默认情况下,WarpingDistance 根据 "MFCC" 特征计算,所有其他距离是根据 "AudioData" 计算.
  • 使用 DistanceFunction->{method,FeatureExtractor->f},可以指定不同的特征提取器.
  • FeatureExtractor 的可能设置包括:
  • "AudioData"音频数据
    "Formants"信号共振峰的频率
    "LPC"线性预测系数
    "MelSpectrogram"梅尔音阶谱图
    "MFCC"梅尔频率倒谱系数向量序列
    "Novelty"对于重要变化的估计度量
    "Spectrogram"频谱
  • 默认情况下,AudioDistance 的计算是基于更短长度的修剪过的信号.
  • 使用 Masking 选项,在不同的区间计算距离度量. 可能的设置包括:
  • Automatic修剪为更短的长度(默认)
    All填充到更长的长度
    {t1,t2}比较介于 t1t2 之间的信号
    {{t11,t12},{t21,t22}}比较 audio1t11t12audio2t21t22
  • 使用 Masking->{{t22,t12}},{t21,t22}},两个区间的长度应该是一样的.
  • PartitionGranularity 只用于适用于分区音频的特征,像 "MFCC",否则忽略.
  • 默认情况下,SampleRate->Automatic 接收所有 audioi 中最高的采样率.

范例

打开所有单元关闭所有单元

基本范例  (1)

两个音频对象间的距离:

范围  (2)

带有不同长度的两个音频信号的长度:

更长的信号被修剪为更短的长度:

两段视频音轨的距离:

选項  (13)

DistanceFunction  (6)

默认情况下,使用 "SpectralEuclidean" 距离:

各种距离的计算是基于音频信号的采样值:

基于频谱计算的距离比较频率内容而不是采样值:

信号的相位不同不会影响计算的频谱距离:

默认情况下,任何距离度量使用最合适的音频特征:

大部分距离使用 "AudioData" 作为默认的特征:

使用 WarpingDistance 时,默认情况下使用 "MFCC" 特征:

指定不同的特征:

除了 "AudioData" 的所有特征都是基于信号的短时傅里叶变换计算的:

Masking  (4)

如果两个信号有不同的长度,更长的会被修剪为更短的长度:

使用 Masking->All 比较信号的完整长度:

使用 Masking 选项比较两个音频对象的指定区间:

只要间隔的持续时间相同,就可以从不同的时间选择:

使用 MaskingAll 比较信号的完整长度:

PartitionGranularity  (2)

使用 PartitionGranularity 选项控制特征的计算:

如果选择的特征是 "AudioData"PartitionGranularity 选项会被忽略:

SampleRate  (1)

默认情况下,所有音频信号被转换成更高的采样率:

使用指定的采样率:

应用  (1)

不同振荡器间的距离:

可视化比较波形:

Wolfram Research (2018),AudioDistance,Wolfram 语言函数,https://reference.wolfram.com/language/ref/AudioDistance.html (更新于 2024 年).

文本

Wolfram Research (2018),AudioDistance,Wolfram 语言函数,https://reference.wolfram.com/language/ref/AudioDistance.html (更新于 2024 年).

CMS

Wolfram 语言. 2018. "AudioDistance." Wolfram 语言与系统参考资料中心. Wolfram Research. 最新版本 2024. https://reference.wolfram.com/language/ref/AudioDistance.html.

APA

Wolfram 语言. (2018). AudioDistance. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/AudioDistance.html 年

BibTeX

@misc{reference.wolfram_2024_audiodistance, author="Wolfram Research", title="{AudioDistance}", year="2024", howpublished="\url{https://reference.wolfram.com/language/ref/AudioDistance.html}", note=[Accessed: 21-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_audiodistance, organization={Wolfram Research}, title={AudioDistance}, year={2024}, url={https://reference.wolfram.com/language/ref/AudioDistance.html}, note=[Accessed: 21-November-2024 ]}