AudioLocalMeasurements
AudioLocalMeasurements[audio,"prop"]
audio の分割について,特性"prop"をローカルに計算する.
AudioLocalMeasurements[audio,{"prop1","prop2",…}]
複数の特性"propi"を計算する.
AudioLocalMeasurements[audio,"prop",format]
指定の出力形式 format で測定値を返す.
AudioLocalMeasurements[video,…]
video の最初の音声トラックからの測定値を計算する.
詳細とオプション
- AudioLocalMeasurementsは,音声の特性あるいは記述子としても知られている.
- AudioLocalMeasurementsは,TimeSeriesを各分割部分に対して返された測定値とともに返す.
- 測定値は平均チャンネル値について計算される.
- 基本的なヒストグラム特性
-
"Max" 最大値 "MaxAbs" 絶対最大値 "Min" 最小値 "MinAbs" 絶対最小値 "MinMax" 最大値と最小値 "MinMaxAbs" 絶対最大値と絶対最小値 "Mean" 平均値 "Median" 中央値 "StandardDeviation" 値の標準偏差 "Total" 値の合計 - 強度特性
-
"Power" 二乗値の平均 "RMSAmplitude" 値の二乗平均平方根 "Loudness" 推定される音の大きさの測度 - 音の大きさ特性はStevensのベキ乗則を使い,を使って計算される.
- 時間領域特性
-
"CrestFactor" 二乗平均平方根で最大値を割ったもの "Entropy" 値のエントロピー "LPC" 線形予測係数 "PeakToAveragePowerRatio" 最大ベキを平均ベキで割ったもの "TemporalCentroid" 値の一時的重心 "ZeroCrossingRate" ゼロ交差の割合 "ZeroCrossings" 分割あたりのゼロ交差の数 - "LPC"特性は,線形予測コーディングを使って推定された12個の係数を返す.{"LPC",n}を使うと n 個の係数が返される.
- LPC係数は,一般に,音声信号の分析と符号化に使われる.
- 一時的重心特性は各分割のエネルギーの重力の中心を与える.一時的重心0.5が分割の中心を表すのに対し,0と1は分割の最初と最後に対応する.
- 周波数領域特性
-
"FundamentalFrequency" 推定された基本周波数 "Formants" 信号のフォルマント周波数 "HighFrequencyContent" 重み付き線形パワースペクトルの平均 "MFCC" メル周波数ケプストラム係数 "SpectralCentroid" パワースペクトルの重心 "SpectralCrest" パワースペクトルの最大値を平均で割ったもの "SpectralFlatness" パワースペクトルの幾何平均を平均で割ったもの "SpectralKurtosis" マグニチュードスペクトルの尖度 "SpectralRollOff" それより下ではエネルギーのほとんどが濃縮してしまう周波数 "SpectralSkewness" マグニチュードスペクトルの歪度 "SpectralSlope" マグニチュードスペクトルの推定傾斜 "SpectralSpread" パワースペクトルのバンド幅の測度 - {"FundamentalFrequency",thr,minfreq,maxfreq}を使うと,minfreq から maxfreq までの周波数範囲で thr 以上の信頼で検出された周波数だけが返される.デフォルト値は音声と楽器を含む信号に特化されている.
- {"Formants",n,m}を使うと,n 個のフォーマントが m 個のLPC係数を使って返される.デフォルトでは,で m は入力サンプルレートに依存する.
- MFCC特性は13個の係数を返す.{"MFCC",n,m,minfreq,maxfreq}を使うと,minfreq から maxfreq までの周波数範囲で n 個までの係数を使って m 個のフィルタが返される.
- 連続する分割部分について計算された周波数領域特性
-
"ComplexDomainDistance" 予測フーリエと測定されたフーリエ間の距離 "ModifiedKullbackLeibler" スペクトル間の修正カルバック・ライブラー(Kullback–Leibler)距離 "Novelty" 重大な変化についての推測された測度 "PhaseDeviation" 予測フーリエと測定されたフーリエ間の位相差 "SpectralFlux" 連続するスペクトル間の差のノルム - 次は,音声特性である.
-
"VoiceActivity" 声の活動が検出されたかどうか(0秒と1秒) - 次は,話者の特性である.
-
"SpeechAperiodicity" 非周期的な(ノイズの多い)成分 "SpeechFundamentalFrequency" 基本周波数 "SpeechSpectralEnvelope" 平滑化されたスペクトログラムデータ - デフォルトで,特性値のリストが返される.他の format 指定には以下がある.
-
Automatic 出力を自動的に決定する "Association" 結果をAssociationとしてフォーマットする "Dataset" 結果をDatasetとしてフォーマットする "List" 結果をListとしてフォーマットする "RuleList" 結果をRule式のリストとしてフォーマットする - 使用可能なオプション
-
Alignment Center タイムスタンプと分割のアラインメント FourierParameters {-1,1} フーリエパラメータ Padding Automatic 充填スキーム PaddingSize Automatic 充填量 PartitionGranularity Automatic 音声分割の指定 MetaInformation None 追加的なメタ情報を含む MissingDataMethod None 欠落値のためのメソッド ResamplingMethod Automatic 経路のリサンプリングに使うメソッド - デフォルトで,測度は各分割部分の中心に返される.Alignmentオプションを使うと,測度を各分割部分の最初(Left)あるいは最後(Right)に返すことができる.
- デフォルトで,信号の両端が分割サイズの半分の無音で充填される.Paddingの可能な設定については,AudioPadの関数ページを参照のこと.
例題
すべて開くすべて閉じる例 (3)
Videoオブジェクトの最初の音声トラックのRMS振幅を計算する:
スコープ (24)
基本的な用法 (1)
時間領域特性 (6)
"CrestFactor"特性は分割の最大値とRMSの比を測定する."PeakToAveragePowerRatio"は同じ値を平方する:
"TemporalCentroid"特性は,各分割のエネルギー分布における重力の質量中心を計算する:
出力値は0から1までで有界である.0は全エネルギーが分割の先頭に集中していることを意味する.
"ZeroCrossings"は分割におけるゼロ交差の数を返す."ZeroCrossingRate"はこれを区分の持続で正規化する:
"LPC"特性は,線形の予測的コード化で推定された12個の係数を返す:
周波数領域特性 (8)
"SpectralCrest"は,パワースペクトルの最大値と平均値の比を測定する:
"SpectralRollOff"は,それより下だとスペクトルエネルギーの95%が濃縮される周波数を測定する:
"SpectralSlope"はパワースペクトルの傾きの測度である:
"SpectralFlatness"はパワースペクトルの平坦さの測度である:
"FundamentalFrequency"は,モノ音響の基本的周波数を推測する:
"HighFrequencyContent"は,周波数とともに線形に増加する重みを使ってパワースペクトルの平均を計算する:
スペクトルの線形重み付けは, "HighFrequencyContent" を一過性の検出のよい候補とし,スペクトルのハイエンドに位置する事象により高い重要性を割り当てる.
近傍分割について計算された周波数領域特性 (2)
オプション (5)
Alignment (1)
結果のTimeSeriesのタイムスタンプは,デフォルトで,各分割区間の中央に置かれる:
アプリケーション (4)
もとの信号からのいくつかの測定値を平均することで「検出関数」を計算する:
動的タイムワーピングを使って,同じ文の2つの録音を比較する:
WarpingCorrespondenceを使って2つの録音間の動的タイムワーピング対応を計算する:
"MFCC"測度を特徴として使ってExampleData["Audio"]集合のさまざまな要素間の距離を計算する:
考えられる問題 (1)
"FundamentalFrequency"は基本周波数が推測できない(枠が無音あるいは多声音声を含む)分割に対してMissing[]値を返す:
おもしろい例題 (3)
AudioGeneratorを使ってフルートの音の周波数と大きさを再現する:
"RMSAmplitude"測度と"FundamentalFrequency"測度を計算する:
"FundamentalFrequency"測度を使って結果の周波数を制御する:
"RMSAmplitude"測度を使って音の大きさを制御する:
テキスト
Wolfram Research (2016), AudioLocalMeasurements, Wolfram言語関数, https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html (2024年に更新).
CMS
Wolfram Language. 2016. "AudioLocalMeasurements." Wolfram Language & System Documentation Center. Wolfram Research. Last Modified 2024. https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html.
APA
Wolfram Language. (2016). AudioLocalMeasurements. Wolfram Language & System Documentation Center. Retrieved from https://reference.wolfram.com/language/ref/AudioLocalMeasurements.html