音声解析は,情報を抽出したり,洞察を得たりするために,音声信号内の局所的および大域的な特徴を視覚的あるいはプログラム的に調べることによって達成される.典型的な応用には,話し言葉と話者を理解すること,あるいは音楽,環境音,野生動物の声を解析することが含まれる. 時間や周波数の解析のために最適化された信号処理だけでなく,高レベルの機械学習とニューラルネットワークを組み合せることによって,Wolfram言語はさまざまな分野における応用へのソリューションを提供する.

音声の可視化

AudioPlot 音声の波形プロット

Spectrogram 音声のスペクトログラムまたは時間-周波数プロット

Periodogram 音声のパワースペクトルプロット

Cepstrogram 音声のパワーケプストラプロット

音声の理解 »

SpeechRecognize 発声された音声信号をテキストに変換する

SpeechCases  ▪  SpeechInterpreter  ▪  ...

一般的な音声信号の理解

AudioIdentify 音声信号が何の音の録音であるかを特定しようとする

PitchRecognize  ▪  AudioInstanceQ

音声の解析

AudioDistance 2つの音声オブジェクト間の距離測度を計算する

AudioBlockMap 音声のパーティションに関数を適用する

AudioLoudness 音声信号のさまざまなラウドネス基準を計算する

AudioIntervals  ▪  AudioMeasurements  ▪  AudioLocalMeasurements

周波数分析

ShortTimeFourier 短時間フーリエ変換 (STFT) を計算する

Fourier  ▪  PeriodogramArray  ▪  SpectrogramArray  ▪  CepstrogramArray  ▪  CepstrumArray  ▪  InverseShortTimeFourier  ▪  InverseSpectrogram

音声信号の理解

AudioIdentify 音声信号が何の音声記録であるのかを判定しようとする

PitchRecognize  ▪  AudioInstanceQ

音声注釈

AudioAnnotate 音声オブジェクトに注釈を付ける

AudioAnnotationLookup  ▪  AnnotationDelete  ▪  AnnotationRules

機械学習とニューラルネットワーク »

Classify, Predict 音声信号に分類器あるいは予測器を作成または適用する

Nearest  ▪  FeatureNearest  ▪  FeatureSpacePlot  ▪  FindClusters  ▪  ...

NetEncoder  ▪  NetChain  ▪  NetGraph  ▪  ...

Wolfram Neural Net Repositoryからのモデル »

"VGGish Feature Extractor Trained on YouTube Data"(特徴検出)  ▪  "CREPE Pitch Detection Net Trained on Monophonic Signal Data"(ピッチ検出)  ▪