SpeakerMatchQ
SpeakerMatchQ[audio,ref]
SpeakerMatchQ[{audio1,audio2,…},ref]
各 audioiの結果のリストを与える.
SpeakerMatchQ[ref]
音声オブジェクトに適用可能なSpeakerMatchQの演算子形を表す.
詳細とオプション
- SpeakerMatchQは,audio と参照 ref の話者の特徴を計算し,話者の特徴間の距離が許容可能な場合はTrueを返す.
- 参照 ref は次のいずれでもよい.
-
ref 単一の参照Audioオブジェクト ref1ref2… 順に試される,いくつかの可能な参照 - 次は,使用可能なオプションである.
-
AcceptanceThreshold 0.5 許容できるとみなす最低の確率 Masking All 関心区間 RecognitionPrior 0.5 結果がTrueとなる事前確率 TargetDevice "CPU" 計算を行うターゲットデバイス - Maskingオプションを使って任意の audioiの関心区間を指定する.次は,使用可能な設定である.
-
All 音声全体を使う {t1,t2} t1から t2までの区間を使う {{t11,t12},{t21,t22},…} audioiの ti1から ti2までの区間を使う - SpeakerMatchQは機械学習を使う.含まれるメソッド,訓練集合,バイアスは,Wolfram言語のバージョンによって異なることがあり,与えられる結果も異なる可能性がある.
- SpeakerMatchQはリソースをダウンロードすることがある.ダウンロードされたリソースは,$LocalBaseのローカルなオブジェクトストアに保存され,LocalObjects[]でリストしたりResourceRemoveで削除したりできる.
例題
すべて開くすべて閉じるスコープ (3)
オプション (4)
アプリケーション (3)
Spoken Digit Commandデータ集合中で,録音の部分集合について話者が一致する行列を構築する:
データ集合に2つから5つのサンプルがある話者からランダムに10人を選ぶ:
特性と関係 (1)
SpeakerMatchQは入力録音について話者の特徴を計算し,埋め込まれたそれらを比較する.
Spoken Digit Commandデータ集合から,録音が2つから5つしかない話者の録音を抽出する:
話者の特徴を比較し,それらについての距離行列をプロットする:
話者の特徴が一致するかどうかを示すバイナリ距離行列を計算する:
SpeakerMatchQの結果と比較する.差は録音の中に音声が検出できないものがあるからである:
考えられる問題 (1)
SpeakerMatchQは,最初に有声区間を求める.入力のどれにも声が検出できない場合は失敗する:
テキスト
Wolfram Research (2020), SpeakerMatchQ, Wolfram言語関数, https://reference.wolfram.com/language/ref/SpeakerMatchQ.html.
CMS
Wolfram Language. 2020. "SpeakerMatchQ." Wolfram Language & System Documentation Center. Wolfram Research. https://reference.wolfram.com/language/ref/SpeakerMatchQ.html.
APA
Wolfram Language. (2020). SpeakerMatchQ. Wolfram Language & System Documentation Center. Retrieved from https://reference.wolfram.com/language/ref/SpeakerMatchQ.html