SpeakerMatchQ

SpeakerMatchQ[audio,ref]

audio の話者の特徴が参照 ref の話者と一致する場合はTrueを,それ以外の場合はFalseを返す.

SpeakerMatchQ[{audio1,audio2,},ref]

audioiの結果のリストを与える.

SpeakerMatchQ[ref]

音声オブジェクトに適用可能なSpeakerMatchQの演算子形を表す.

詳細とオプション

  • SpeakerMatchQは,audio と参照 ref の話者の特徴を計算し,話者の特徴間の距離が許容可能な場合はTrueを返す.
  • 参照 ref は次のいずれでもよい.
  • ref単一の参照Audioオブジェクト
    ref1|ref2|順に試される,いくつかの可能な参照
  • 次は,使用可能なオプションである.
  • AcceptanceThreshold 0.5許容できるとみなす最低の確率
    Masking All関心区間
    RecognitionPrior 0.5結果がTrueとなる事前確率
    TargetDevice"CPU"計算を行うターゲットデバイス
  • Maskingオプションを使って任意の audioiの関心区間を指定する.次は,使用可能な設定である.
  • All音声全体を使う
    {t1,t2} t1から t2までの区間を使う
    {{t11,t12},{t21,t22},}audioiti1から ti2までの区間を使う
  • SpeakerMatchQは機械学習を使う.含まれるメソッド,訓練集合,バイアスは,Wolfram言語のバージョンによって異なることがあり,与えられる結果も異なる可能性がある.
  • SpeakerMatchQはリソースをダウンロードすることがある.ダウンロードされたリソースは,$LocalBaseのローカルなオブジェクトストアに保存され,LocalObjects[]でリストしたりResourceRemoveで削除したりできる.

例題

すべて開くすべて閉じる

  (2)

2つの録音が同じ話者のものかどうかチェックする:

録音の話者と時間を引き延ばしたバージョンの話者を比較する:

スコープ  (3)

録音中の話者がいくつかの参照のいずれかと一致するかどうかを調べる:

録音のリストにある話者の中に参照と一致するものがあるかどうかを調べる:

SpeakerMatchQの演算子形を使う:

オプション  (4)

AcceptanceThreshold  (1)

デフォルトで,受容閾値として0.5が使われる:

受容可能であるとみなされる最小確率を指定する:

Masking  (2)

デフォルトで,音声録音全体が比較される.このため,話者が複数のときはうまくいかないことがある:

録音中の関心区間を指定して参照と比較する:

録音のリスト中の各入力音声に異なるマスキングを適用する:

RecognitionPrior  (1)

録音中の話者が参照と一致する事前確率を指定する:

より高い事前確率を使用する:

アプリケーション  (3)

録音の話者と時間を引き延ばしたバージョンの話者を比較する:

録音の話者とピッチをシフトしたバージョンの話者を比較する:

Spoken Digit Commandデータ集合中で,録音の部分集合について話者が一致する行列を構築する:

データ集合に2つから5つのサンプルがある話者からランダムに10人を選ぶ:

それらの話者に対応するすべての録音を抽出し,話者のIDによってソートする:

一致する話者の行列を計算してプロットする:

特性と関係  (1)

SpeakerMatchQは入力録音について話者の特徴を計算し,埋め込まれたそれらを比較する.

Spoken Digit Commandデータ集合から,録音が2つから5つしかない話者の録音を抽出する:

各録音について話者の特徴を計算する:

計算された特徴のサンプルを可視化する:

話者の特徴を比較し,それらについての距離行列をプロットする:

話者の特徴が一致するかどうかを示すバイナリ距離行列を計算する:

SpeakerMatchQの結果と比較する.差は録音の中に音声が検出できないものがあるからである:

考えられる問題  (1)

SpeakerMatchQは,最初に有声区間を求める.入力のどれにも声が検出できない場合は失敗する:

Wolfram Research (2020), SpeakerMatchQ, Wolfram言語関数, https://reference.wolfram.com/language/ref/SpeakerMatchQ.html.

テキスト

Wolfram Research (2020), SpeakerMatchQ, Wolfram言語関数, https://reference.wolfram.com/language/ref/SpeakerMatchQ.html.

CMS

Wolfram Language. 2020. "SpeakerMatchQ." Wolfram Language & System Documentation Center. Wolfram Research. https://reference.wolfram.com/language/ref/SpeakerMatchQ.html.

APA

Wolfram Language. (2020). SpeakerMatchQ. Wolfram Language & System Documentation Center. Retrieved from https://reference.wolfram.com/language/ref/SpeakerMatchQ.html

BibTeX

@misc{reference.wolfram_2024_speakermatchq, author="Wolfram Research", title="{SpeakerMatchQ}", year="2020", howpublished="\url{https://reference.wolfram.com/language/ref/SpeakerMatchQ.html}", note=[Accessed: 21-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_speakermatchq, organization={Wolfram Research}, title={SpeakerMatchQ}, year={2020}, url={https://reference.wolfram.com/language/ref/SpeakerMatchQ.html}, note=[Accessed: 21-November-2024 ]}