AudioIntervals

AudioIntervals[audio]

audio の可聴範囲を返す.

AudioIntervals[audio,crit]

基準 crit を満たす音声区間を返す.

AudioIntervals[audio,crit,mindur]

指定された持続時間 mindur より長い区間だけを返す.

AudioIntervals[video,]

video の最初の音声トラックからの区間だけを返す.

詳細とオプション

  • AudioIntervalsを使って音声信号の中で特定の特徴を持つ部分を検出することができる.
  • 基準 crit は,高レベルオブジェクトを指定する文字列かローカルの音声特性を使った純関数のどちらかである.
  • crit についての高レベル文字列設定は,次のいずれかでよい.
  • "Audible"RMS振幅が0.01より上の音声区間
    "Inaudible"RMS振幅が0.01以下の非可聴範囲
    "Loud"データ依存閾値がある,より大音声の区間
    "Quiet"データ依存閾値がある,より静かな区間
    "VoiceActivity"発話が検出された区間
    "VoiceInactivity"発話が検出されない区間
  • 基準 crit は,#prop 引数を取り,各分割区間の選択に局所特性"prop"を使う関数でもよい.
  • 区間の選択には次の特性を使うことができる.
  • 基本ヒストグラム特性
  • "MaxAbs"最大絶対値
    "Max"最大値
    "StandardDeviation"値の標準偏差
  • 強度特性
  • "Power"二乗値の平均
    "RMSAmplitude"値の二乗平均平方根
    "Loudness"推定されたラウドネスの測度
    "LoudnessEBU"EBU瞬時標準に準拠するラウドネス
  • 時間領域特性
  • "CrestFactor"二乗平均平方根で最大値を割ったもの
    "Entropy"値のエントロピー
    "PeakToAveragePowerRatio"最大ベキを平均べきで割ったもの
    "ZeroCrossingRate"ゼロ交差の割合
    "ZeroCrossings"ゼロ交差の数
  • 周波数領域特性
  • "FundamentalFrequency"推定基本周波数
    "ModifiedKullbackLeibler"連続する分割区間の修正カルバック・ライブラー(KullbackLeibler)距離
    "SpectralCentroid"パワースペクトルの重心
    "SpectralCrest"最大値をパワースペクトルの平均で割ったもの
    "SpectralFlatness"帰化平均をパワースペクトルの平均で割ったもの
    "SpectralKurtosis"マグニチュードスペクトルの尖度
    "SpectralRollOff"それより下ではほとんどのエネルギーが濃縮される周波数
    "SpectralSkewness"マグニチュードスペクトルの歪度
    "SpectralSlope"マグニチュードスペクトルの推定傾斜
    "SpectralSpread"パワースペクトルのバンド幅の測度
    "SpeechFundamentalFrequency"音声信号に最適化された基本周波数
    "VoiceActivity"音声信号について検出された有声活動
  • 最低持続時間 mindur は単位が秒の非負の実数,時間量,あるいはサンプル量でよい.
  • 使用可能なオプション
  • AlignmentAutomaticスタンプと分割区間のアラインメント
    FourierParameters{-1,1}フーリエパラメータ
    PartitionGranularity Automatic音声分割指定
  • デフォルトで,各分割の中心に測度は測度値が返される.Alignmentオプションを使うと,各分割の始まり(Left) または終り(Right) に測度値を返すことができる.

例題

すべて開くすべて閉じる

  (2)

音声の無音区間を計算する:

RMS振幅が0.01未満の区間を求める:

無音区間を可視化する:

RMS振幅が低い区間を求める:

結果の区間を可視化する:

スコープ  (4)

データ依存の閾値を使って無音区間を求める:

デフォルトで,任意長の区間が返される:

区間の持続時間を計算する:

指定された閾値よりも長い区間だけを求める:

複数の特性を一度に判定する:

動画の音声トラックを解析する:

オプション  (2)

PartitionGranularity  (2)

100ミリ秒の分割サイズを指定する:

10ミリ秒のオフセットを使う:

平滑化窓を使う:

異なる分割指定を使うと結果も変わる:

分割を粗くすると計算が速くなる:

アプリケーション  (4)

音声の無音区間を削除する:

RMS振幅が閾値よりも大きい区間を求める:

取り出した区間を繋ぐ:

EBU基準からの一時的なラウドネス指定を使って無音区間を求めることもできる:

"VoiceActivity"特性を使って音声信号内の有声区間を検出する:

検出された区間を可視化する:

RMS振幅のようなその他の特性とスペクトル平坦性を組み合せて無声の音声部分を求める:

検出された区間を可視化する:

無声の部分を検出し,それを減衰する:

"VoiceActivity"特性を使って無声の部分を検出する:

検出された区間を可視化する:

検出された区間を減衰する:

考えられる問題  (1)

戻り値がブール値ではない場合は,基準関数はうまくいかない:

"FundamentalFrequency"のような特性は数値以外の値を持つことができるので,特別な注意が必要である:

Wolfram Research (2016), AudioIntervals, Wolfram言語関数, https://reference.wolfram.com/language/ref/AudioIntervals.html (2024年に更新).

テキスト

Wolfram Research (2016), AudioIntervals, Wolfram言語関数, https://reference.wolfram.com/language/ref/AudioIntervals.html (2024年に更新).

CMS

Wolfram Language. 2016. "AudioIntervals." Wolfram Language & System Documentation Center. Wolfram Research. Last Modified 2024. https://reference.wolfram.com/language/ref/AudioIntervals.html.

APA

Wolfram Language. (2016). AudioIntervals. Wolfram Language & System Documentation Center. Retrieved from https://reference.wolfram.com/language/ref/AudioIntervals.html

BibTeX

@misc{reference.wolfram_2024_audiointervals, author="Wolfram Research", title="{AudioIntervals}", year="2024", howpublished="\url{https://reference.wolfram.com/language/ref/AudioIntervals.html}", note=[Accessed: 05-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_audiointervals, organization={Wolfram Research}, title={AudioIntervals}, year={2024}, url={https://reference.wolfram.com/language/ref/AudioIntervals.html}, note=[Accessed: 05-November-2024 ]}