AudioLocalMeasurements

AudioLocalMeasurements[audio,"prop"]

audio の分割について,特性"prop"をローカルに計算する.

AudioLocalMeasurements[audio,{"prop1","prop2",}]

複数の特性"propi"を計算する.

AudioLocalMeasurements[audio,"prop",format]

指定の出力形式 format で測定値を返す.

AudioLocalMeasurements[video,]

video の最初の音声トラックからの測定値を計算する.

詳細とオプション

  • AudioLocalMeasurementsは,音声の特性あるいは記述子としても知られている.
  • AudioLocalMeasurementsは,TimeSeriesを各分割部分に対して返された測定値とともに返す.
  • 測定値は平均チャンネル値について計算される.
  • 基本的なヒストグラム特性
  • "Max"最大値
    "MaxAbs"絶対最大値
    "Min"最小値
    "MinAbs"絶対最小値
    "MinMax"最大値と最小値
    "MinMaxAbs"絶対最大値と絶対最小値
    "Mean"平均値
    "Median"中央値
    "StandardDeviation"値の標準偏差
    "Total"値の合計
  • 強度特性
  • "Power"二乗値の平均
    "RMSAmplitude"値の二乗平均平方根
    "Loudness"推定される音の大きさの測度
  • 音の大きさ特性はStevensのベキ乗則を使い,を使って計算される.
  • 時間領域特性
  • "CrestFactor"二乗平均平方根で最大値を割ったもの
    "Entropy"値のエントロピー
    "LPC"線形予測係数
    "PeakToAveragePowerRatio"最大ベキを平均ベキで割ったもの
    "TemporalCentroid"値の一時的重心
    "ZeroCrossingRate"ゼロ交差の割合
    "ZeroCrossings"分割あたりのゼロ交差の数
  • "LPC"特性は,線形予測コーディングを使って推定された12個の係数を返す.{"LPC",n}を使うと n 個の係数が返される.
  • LPC係数は,一般に,音声信号の分析と符号化に使われる.
  • 一時的重心特性は各分割のエネルギーの重力の中心を与える.一時的重心0.5が分割の中心を表すのに対し,0と1は分割の最初と最後に対応する.
  • 周波数領域特性
  • "FundamentalFrequency"推定された基本周波数
    "Formants"信号のフォルマント周波数
    "HighFrequencyContent"重み付き線形パワースペクトルの平均
    "MFCC"メル周波数ケプストラム係数
    "SpectralCentroid"パワースペクトルの重心
    "SpectralCrest"パワースペクトルの最大値を平均で割ったもの
    "SpectralFlatness"パワースペクトルの幾何平均を平均で割ったもの
    "SpectralKurtosis"マグニチュードスペクトルの尖度
    "SpectralRollOff"それより下ではエネルギーのほとんどが濃縮してしまう周波数
    "SpectralSkewness"マグニチュードスペクトルの歪度
    "SpectralSlope"マグニチュードスペクトルの推定傾斜
    "SpectralSpread"パワースペクトルのバンド幅の測度
  • {"FundamentalFrequency",thr,minfreq,maxfreq}を使うと,minfreq から maxfreq までの周波数範囲で thr 以上の信頼で検出された周波数だけが返される.デフォルト値は音声と楽器を含む信号に特化されている.
  • {"Formants",n,m}を使うと,n 個のフォーマントが m 個のLPC係数を使って返される.デフォルトでは,m は入力サンプルレートに依存する.
  • MFCC特性は13個の係数を返す.{"MFCC",n,m,minfreq,maxfreq}を使うと,minfreq から maxfreq までの周波数範囲で n 個までの係数を使って m 個のフィルタが返される.
  • 連続する分割部分について計算された周波数領域特性
  • "ComplexDomainDistance"予測フーリエと測定されたフーリエ間の距離
    "ModifiedKullbackLeibler"スペクトル間の修正カルバック・ライブラー(KullbackLeibler)距離
    "Novelty"重大な変化についての推測された測度
    "PhaseDeviation"予測フーリエと測定されたフーリエ間の位相差
    "SpectralFlux"連続するスペクトル間の差のノルム
  • 次は,音声特性である.
  • "VoiceActivity"声の活動が検出されたかどうか(0秒と1秒)
  • 次は,話者の特性である.
  • "SpeechAperiodicity"非周期的な(ノイズの多い)成分
    "SpeechFundamentalFrequency"基本周波数
    "SpeechSpectralEnvelope"平滑化されたスペクトログラムデータ
  • デフォルトで,特性値のリストが返される.他の format 指定には以下がある.
  • Automatic出力を自動的に決定する
    "Association"結果をAssociationとしてフォーマットする
    "Dataset"結果をDatasetとしてフォーマットする
    "List"結果をListとしてフォーマットする
    "RuleList"結果をRule式のリストとしてフォーマットする
  • 使用可能なオプション
  • Alignment Centerタイムスタンプと分割のアラインメント
    FourierParameters{-1,1}フーリエパラメータ
    Padding Automatic充填スキーム
    PaddingSize Automatic充填量
    PartitionGranularity Automatic音声分割の指定
    MetaInformationNone追加的なメタ情報を含む
    MissingDataMethodNone欠落値のためのメソッド
    ResamplingMethodAutomatic経路のリサンプリングに使うメソッド
  • デフォルトで,測度は各分割部分の中心に返される.Alignmentオプションを使うと,測度を各分割部分の最初(Left)あるいは最後(Right)に返すことができる.
  • デフォルトで,信号の両端が分割サイズの半分の無音で充填される.Paddingの可能な設定については,AudioPadの関数ページを参照のこと.

例題

すべて開くすべて閉じる

  (3)

音声オブジェクトのRMS周波数を計算する:

測定値をプロットする:

Videoオブジェクトの最初の音声トラックのRMS振幅を計算する:

測定値をプロットする:

複数の測定値を計算する:

測定値をプロットする:

スコープ  (24)

基本的な用法  (1)

出力をAssociationとしてフォーマットする:

TimeSeriesのリストを返す:

規則のリストを返す:

Datasetを返す:

ヒストグラム特性  (2)

基本的なヒストグラム特性:

統計的ヒストグラム特性:

強度特性  (1)

強度に基づいた基本特性:

時間領域特性  (6)

"CrestFactor"特性は分割の最大値とRMSの比を測定する."PeakToAveragePowerRatio"は同じ値を平方する:

"TemporalCentroid"特性は,各分割のエネルギー分布における重力の質量中心を計算する:

出力値は0から1までで有界である.0は全エネルギーが分割の先頭に集中していることを意味する.

"ZeroCrossings"は分割におけるゼロ交差の数を返す."ZeroCrossingRate"はこれを区分の持続で正規化する:

"LPC"特性は,線形の予測的コード化で推定された12個の係数を返す:

高いサンプルレートを持つ音声オブジェクトのLPC係数の数を制御する:

信号のフォルマントの周波数を抽出する:

計算に使われるフォルマント係数とLPC係数の数を制御する:

音声信号のエントロピー:

周波数領域特性  (8)

"SpectralCrest"は,パワースペクトルの最大値と平均値の比を測定する:

"SpectralRollOff"は,それより下だとスペクトルエネルギーの95%が濃縮される周波数を測定する:

"SpectralSlope"はパワースペクトルの傾きの測度である:

"SpectralFlatness"はパワースペクトルの平坦さの測度である:

パワースペクトル上で計算された,よく使われる統計特性:

"FundamentalFrequency"は,モノ音響の基本的周波数を推測する:

検出感度を制御する:

検出を行う周波数範囲を制御する:

"HighFrequencyContent"は,周波数とともに線形に増加する重みを使ってパワースペクトルの平均を計算する:

スペクトルの線形重み付けは, "HighFrequencyContent" を一過性の検出のよい候補とし,スペクトルのハイエンドに位置する事象により高い重要性を割り当てる.

"MFCC"特性はメル周波数ケプストラムの12の係数を返す:

係数およびフィルタの数と周波数範囲を制御する:

近傍分割について計算された周波数領域特性  (2)

連続する2つのフレームのフーリエ変換間の距離の異なる測定値に基づいた特性:

"Novelty"特性はあるフレームが近傍フレームとどのくらい違うかを計算する:

音声と話者の特性  (4)

"VoiceActivity"特性は,音声信号のうちの有声部分を示す関数である:

音声の波形プロットで声の活動を示す:

解像度を上げるためにより小さい10ミリ秒の窓を使う:

"SpeechFundamentalFrequency"特性は,音声の基本周波数を推定する:

"SpeechSpectralEnvelope"特性は信号のスペクトル包絡線の係数を返す:

結果の値をプロットする:

"SpeechAperiodicity"特性は,信号の非周期的成分の係数を返す:

結果の値をプロットする:

オプション  (5)

Alignment  (1)

結果のTimeSeriesのタイムスタンプは,デフォルトで,各分割区間の中央に置かれる:

Alignment->Rightを使って計算された特性を各分割区間の末尾に置く:

Padding  (1)

デフォルトで,"Silent"充填が使われる:

"Reversed"充填を使う:

PaddingSize  (1)

デフォルトで,区分サイズの半分に等しい充填が信号の両端に適用される:

充填量を増やす:

信号の最初と最後に異なる充填量を使う:

PartitionGranularity  (2)

100ミリ秒の分割サイズを指定する:

10ミリ秒のオフセットを使う:

平滑化窓を使う:

周波数領域特性はすべて,デフォルトで,平滑化窓を使う:

アプリケーション  (4)

複雑な音声信号の中の過渡信号を検出する:

もとの信号からのいくつかの測定値を平均することで「検出関数」を計算する:

適応的閾値を使って検出関数にフィルタをかける:

フィルタをかけた検出関数の頂点を求める:

求まった過渡信号を波形上にプロットする:

音声オブジェクトのシグネチャを計算する:

MFCC特性を計算し,その値を抽出する:

結果の距離行列をプロットする:

動的タイムワーピングを使って,同じ文の2つの録音を比較する:

録音のMFCC特性を計算し,プロットする:

WarpingCorrespondenceを使って2つの録音間の動的タイムワーピング対応を計算する:

2つの録音間の対応関係をプロットする:

"MFCC"測度を特徴として使ってExampleData["Audio"]集合のさまざまな要素間の距離を計算する:

考えられる問題  (1)

"FundamentalFrequency"は基本周波数が推測できない(枠が無音あるいは多声音声を含む)分割に対してMissing[]値を返す:

多声音声の基本周波数は定義できない:

おもしろい例題  (3)

AudioGeneratorを使ってフルートの音の周波数と大きさを再現する:

"RMSAmplitude"測度と"FundamentalFrequency"測度を計算する:

"FundamentalFrequency"測度を使って結果の周波数を制御する:

"RMSAmplitude"測度を使って音の大きさを制御する:

モールス(Morse)信号を復号化する:

信号のRMS振幅を計算し,丸める:

過渡信号がある点のみを選ぶ:

最初の点が必ず t=0にあるようにして,最小の時間増分を計算する:

モールス信号のマッピングを定義する:

信号を復号化する:

音声オブジェクトの波形の印刷可能な3Dモデルを作る:

"Min"測度と"Max"測度を計算する:

波形の3Dモデルを作る:

モデルを3Dで印刷する:

Wolfram Research (2016), AudioLocalMeasurements, Wolfram言語関数, https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html (2024年に更新).

テキスト

Wolfram Research (2016), AudioLocalMeasurements, Wolfram言語関数, https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html (2024年に更新).

CMS

Wolfram Language. 2016. "AudioLocalMeasurements." Wolfram Language & System Documentation Center. Wolfram Research. Last Modified 2024. https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html.

APA

Wolfram Language. (2016). AudioLocalMeasurements. Wolfram Language & System Documentation Center. Retrieved from https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html

BibTeX

@misc{reference.wolfram_2024_audiolocalmeasurements, author="Wolfram Research", title="{AudioLocalMeasurements}", year="2024", howpublished="\url{https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html}", note=[Accessed: 21-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_audiolocalmeasurements, organization={Wolfram Research}, title={AudioLocalMeasurements}, year={2024}, url={https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html}, note=[Accessed: 21-November-2024 ]}