音声解析

概要 »
音声解析は,情報を抽出したり,洞察を得たりするために,音声信号内の局所的および大域的な特徴を視覚的あるいはプログラム的に調べることによって達成される.典型的な応用には,話し言葉と話者を理解すること,あるいは音楽,環境音,野生動物の声を解析することが含まれる. 時間や周波数の解析のために最適化された信号処理だけでなく,高レベルの機械学習とニューラルネットワークを組み合せることによって,Wolfram言語はさまざまな分野における応用へのソリューションを提供する.
音声の可視化
AudioPlot — 音声の波形プロット
Spectrogram — 音声のスペクトログラムまたは時間-周波数プロット
Periodogram — 音声のパワースペクトルプロット
Cepstrogram — 音声のパワーケプストラプロット
音声の理解 »
SpeechRecognize — 発声された音声信号をテキストに変換する
SpeechCases ▪ SpeechInterpreter ▪ ...
一般的な音声信号の理解
AudioIdentify — 音声信号が何の音の録音であるかを特定しようとする
PitchRecognize ▪ AudioInstanceQ
音声の解析
AudioDistance — 2つの音声オブジェクト間の距離測度を計算する
AudioBlockMap — 音声のパーティションに関数を適用する
AudioLoudness — 音声信号のさまざまなラウドネス基準を計算する
AudioIntervals ▪ AudioMeasurements ▪ AudioLocalMeasurements
周波数分析
ShortTimeFourier — 短時間フーリエ変換 (STFT) を計算する
Fourier ▪ PeriodogramArray ▪ SpectrogramArray ▪ CepstrogramArray ▪ CepstrumArray ▪ InverseShortTimeFourier ▪ InverseSpectrogram
音声信号の理解
AudioIdentify — 音声信号が何の音声記録であるのかを判定しようとする
PitchRecognize ▪ AudioInstanceQ
音声注釈
AudioAnnotate — 音声オブジェクトに注釈を付ける
AudioAnnotationLookup ▪ AnnotationDelete ▪ AnnotationRules
機械学習とニューラルネットワーク »
Classify, Predict — 音声信号に分類器あるいは予測器を作成または適用する
Nearest ▪ FeatureNearest ▪ FeatureSpacePlot ▪ FindClusters ▪ ...
NetEncoder ▪ NetChain ▪ NetGraph ▪ ...
Wolfram Neural Net Repositoryからのモデル »
"VGGish Feature Extractor Trained on YouTube Data"(特徴検出) ▪ "CREPE Pitch Detection Net Trained on Monophonic Signal Data"(ピッチ検出) ▪ …