音声処理

Wolfram言語は,他のパワフルな数学およびアルゴリズム機能と完全に統合した,プログラム的でありインタラクティブでもある音声処理に対する組込のサポートを提供している.音声オブジェクトは,線形および非線形フィルタを適用したり,エフェクトを加えたり,音声特定の関数を使って解析することもできれば,Wolfram言語の他の部分との密接な統合を利用して処理することもできる.
フィルタリング
音声信号は,多数の信号処理関数の入力として使うことができる.
LowpassFilter[audio,ωc]
カットオフ周波数が ωc のローパスフィルタを音声に適用する
HighpassFilter[audio,ωc]
カットオフ周波数が ωc のハイパスフィルタを音声に適用する
WienerFilter[audio,r]
範囲 r サンプルのWienerフィルタを音声に適用する
MeanFilter[audio,r]
範囲 r サンプルの平均値フィルタを音声に適用する
TotalVariationFilter[audio]
ノイズ除去フィルタを音声に適用する
GaussianFilter[audio, r]
範囲 r サンプルのガウシアンフィルタを音声に適用する
音声オブジェクトに直接適用できるフィルタの例
Wolfram言語に存在するフィルタリング関数の多くは,そのまま音声オブジェクトに適用することができる.多くの場合,カットオフ周波数を周波数Quantityとして指定することができる.
音声オブジェクトに適用されるFIRフィルタ:
もとの信号と処理された信号のピリオドグラムをプロットする:
WienerFilterを使って,録音のノイズを除去する:
離散時間伝達関数モデルを使うと,RecurrenceFilterで音声オブジェクトにフィルタを適用することができる.
RecurrenceFilter[tf,audio]
TransferFunctionModel tf で定義された離散時間フィルタを使う
BiquadraticFilterModel[{"type",spec}]
指定された {"type",spec}の双二次フィルタを作る
ButterworthFilterModel[{"type",spec}]
指定された {"type",spec}のButterworthフィルタを作る
TransferFunctionModel[m,s]
複素変数 s を持つ伝達関数行列 m のモデルを表す
ToDiscreteTimeModel[lsys,τ]
サンプリング周期が τ の連続時間系モデル lsys の離散時間近似を与える
利用可能なフィルタモデルと追加のユーティリティの例
アナログ(連続時間)フィルタモデルの一つを使う最も簡単な方法は,ToDiscreteTimeModelを使って伝達関数を離散化し,RecurrenceFilterを使ってその結果を音声オブジェクトに適用するというものである.
音声オブジェクトに共振双2次フィルタを適用する:
離散伝達関数はTransferFunctionModelを使って作成し,RecurrenceFilterを使って音声オブジェクトに適用することができる.
TransferFunctionModelを使ってコムフィルタを定義し,それを音声オブジェクトに適用する:
エフェクトと操作
音声オブジェクトは,組込関数あるいはユーザ定義の関数を使って変更したり操作したりすることができる.
AudioTimeStretch[audio,r]
指定された因数 r 分だけの時間の引き伸ばしを音声に適用する
AudioPitchShift[audio,r]
指定された割合 r のシフトピッチを音声に適用する
AudioReverb[audio]
音声に残響エフェクトを加える
AudioDelay[audio,delay]
音声に遅延時間 delay の遅延エフェクトを適用する
AudioChannelMix[audio,desttype]
指定された desttype に音声のチャンネルを混ぜる
一般的な音声エフェクト
ピッチシフトとタイムストレッチを使うと,音声信号のピッチと継続時間を別々に変更することができる.
音声オブジェクトを引き伸ばす:
音声オブジェクトのピッチをシフトアップする:
遅延エフェクトと残響エフェクトは,録音を仮装環境に置いたり,特殊エフェクトを生成したりするために使うことができる.
遅延エフェクトあるいは残響エフェクトを適用する:
高いフィードバック値を持つ短い遅延を突発的ノイズに加えることにより,カープラス・ ストロング(KarplusStrong)合成を実行する.これは振動する弦のサウンドのシミュレーションである:
任意数のチャンネルへのダウンミキシングおよびアップミキシングは,AudioChannelMixを使って実行することができる.
マルチチャンネルの音声オブジェクトをダウンミックスおよびアップミックスする:
Audioオブジェクトの算術機能を利用して,録音を変更することができる.属性NumericFunctionあるいはListableを持つWolfram言語の演算子および関数はすべて音声オブジェクトで利用できるよう多重定義されている.
Tanh関数を使って,音声オブジェクトに滑らかなディストーションを適用する:
ChebyshevT関数を使って「ウェーブシェイパー」エフェクトを得る:
音声オブジェクトに正弦波を掛けて「リングモジュレータ」エフェクトを得る:
解析

全信号の解析

録音の特性は,大域的にも局所的にも計算することができる.
AudioMeasurements[audio,"prop"]
audio 全体についての特性"prop"を計算する
大域的測度値を計算する機能の例
AudioMeasurementsを使うと,時間領域特性も周波数領域特性も測定することができる.この特性は,音声オブジェクトのチャンネル上の平均サンプル値上で計算される.
録音の時間領域特性を計算する:
録音の周波数領域特性を計算する:
組込の統計関数を直接適用して,他の測度値を計算する.
音声のモーメントとエントロピーを計算する:
AudioMeasurementsとは異なり,多重定義された関数は平坦化されたデータに適用される(入力がマルチチャンネルの音声オブジェクトの場合,すべてのチャンネルからのサンプル値は1つの配列に平滑化される).
録音の統計的特性を計算する:

分割された信号の解析

音声オブジェクトの大域的特性に加え,局所的な測度値を計算することもできる.
AudioLocalMeasurements[audio,"prop"]
audio の分割について,特性"prop"をローカルに計算する
AudioIntervals[audio,crit]
基準 crit を満たす音声区間を求める
局所的測度値を計算する機能の例
AudioLocalMeasurementsでは,特性はローカルで計算される.信号はPartitionGranularityの指定に従って分割され,要求された特性はそれぞれの部分について計算される.結果は,タイムスタンプが各部分の中心の時間に対応するTimeSeriesとして返される.
オフセット1ミリ秒の40ミリ秒の部分でRMS(二乗平均平方根振幅)を計算する:
AudioLocalMeasurementsあるいはAudioMeasurementsの結果は,Wolfram言語の他の機能の入力として使うことができる.
"SpectralCentroid"および"SpectralSpread"の測度値を使って,リスト中の同様の音声オブジェクトのクラスタを見付ける:
MFCC(メル周波数ケプストラム係数)の測度値を,ExampleData["Audio"]集合のさまざまな要素間の距離を計算する機能として使う:
AudioIntervalsを使うと,ユーザ定義の基準を満たす区間を抽出することができる.
録音の無音の区間を見付ける:

高レベル解析

ニューラルネットワークベースの関数を使うと,信号のコンテンツについてのより深い洞察を得ることができる.
SpeechRecognize[audio]
audio の音声を認識し,これを文字列として返す
PitchRecognize[audio]
audio のメインピッチを認識する
AudioIdentify[audio]
audio が何の録音か識別する
ニューラルネットワークベースの機能の例
高レベルの音声解析を行う:
機械学習の関数はすべてAudioオブジェクトを認知しており,意味的に重要な特徴抽出から計算を実行する.
Classify[{audio1class1,audio2class2,}]
与えられた例やクラスで訓練されたClassifierFunction[]を生成する
FeatureExtraction[{audio1,audio2,}]
与えられた例で訓練されたFeatureExtractorFunction[]を生成する
FeatureSpacePlot[{audio1,audio2,}]
audioi から抽出された特徴を散布図としてプロットする
高レベル機械学習関数の例
この処理は各音声オブジェクトを固定サイズのベクトルで変換するため,簡単に比較できる.
楽器の音のデータセットを分類する:
FeatureSpacePlotを使って音声コレクションの特徴をプロットする.
FeatureSpacePlotを使って,意味的に重要な空間で信号のリストをプロットする:

ニューラルネットワーク

Audioオブジェクトは,パワフルなニューラルネットワークフレームワークと緊密に統合されている.NetEncoderAudioオブジェクト等のさまざまな高レベル構造にタメノニューラルネットの入り口を提供する.
"Audio"
信号を波形として符号化する
"AudioSpectrogram"
信号をすペクトログラムとして符号化する
"AudioMFCC"
信号をメルスペクトログラムとして符号化する
音声NetEncoderの例
いろいろな種類の特徴を計算するためには,異なるエンコーダを使うことができる.もとの信号の情報をすべて維持するもの("Audio""AudioSTFT"等)もあれば,いくらかの情報を捨てて次元を劇的に減少させるもの("AudioMFCC"等)もある.
異なるエンコーダを使って計算した特徴を可視化する.
エンコーダを使うと,ネットワークを始めから訓練して音声関連のタスクを解き,結果の性能を測定することが簡単にできる.
NetTrain[net,data]
データセット data でネットワーク net を訓練する
NetChain[{layer1,layer2,}]
layeri の出力が layeri+1 の入力と接続されるネットを指定する
NetMeasurements[net,data,measurement]
data で評価された net に対してリクエストされた measurement を計算する
ニューラルネットワークの機能の例
NetChainおよびNetGraphを使うと,任意の位相のネットワークを作成し,GatedRecurrentLayerLongShortTermMemoryLayer等の列に焦点を当てた層を使って可変長の信号を解析することができる.
0から9までの発話による数字を分類するネットワークを訓練する: