AudioIdentify

AudioIdentify[audio]

audio が何の録音かの識別を試み,その結果を返す.

AudioIdentify[audio,category]

識別を指定された category に限定する.

AudioIdentify[audio,category,n]

n 個までの可能な識別のリストを与える.

AudioIdentify[audio,category,n,"prop"]

各識別について,指定された特性を与える.

詳細とオプション

  • 音声識別は,音声分類としても知られるもので,音声録音中の音の識別を試みる.
  • AudioIdentify[{audio1,audio2,},]を使って複数の音声オブジェクト中のオブジェクトを識別することができる.
  • AudioIdentify[audio,category]category の可能な形には以下がある.
  • "class""Sound" 実体で使われる,名前付きのサウンドクラス
    Entity[]適切な任意の実体
    category1|category2|categoryiのいずれか
  • デフォルトで,AudioIdentify[audio]Entity["Sound",]の形のオブジェクトを返す.
  • 特性"prop"は以下の任意のものでよい.
  • "Probability"概念と確率の連想
    "Sound"サウンド実体オブジェクト
    "prop""Sound"実体がサポートする特性
    {prop1,}特性指定のリスト
  • 次は,使用可能なオプションである.
  • AcceptanceThreshold Automatic許容可能とみなす最低確率
    Masking All関心区間
    PerformanceGoal$PerformanceGoal識別において何を最適化するか
    SpecificityGoal Automaticオブジェクトタイプのどの特異性を求めるか
    TargetDevice"CPU"評価を行うターゲットデバイス
  • PerformanceGoalの可能な設定には"Speed""Quality"がある.
  • SpecificityGoalの可能な設定には以下がある.
  • "Low"オブジェクトの一般的なカテゴリを優先する
    "High"特定の種類のオブジェクトを優先する
    s0(最低)から1(最高)までの特異性
  • AudioIdentifyは,AcceptanceThresholdで指定された許容レベルで識別できないときにはMissing["Unidentified"]を返す.
  • AudioIdentifyは機械学習を使う.含まれるメソッド,訓練集合,バイアスはWolfram言語のバージョンによって異なることがあり,与えられる結果も異なる可能性がある.
  • AudioIdentifyはリソースをダウンロードすることがある.ダウンロードされたリソースは,$LocalBaseのローカルなオブジェクトストアに保存され,LocalObjects[]でリストしたりResourceRemoveで削除したりできる.

例題

すべて開くすべて閉じる

  (2)

録音中のサウンドを識別する:

識別したもののリストを返す:

スコープ  (3)

録音中のサウンドクラスを識別する:

特定のカテゴリのサウンド内で識別する:

いくつかのカテゴリのサウンドの中から任意のもので識別する:

いくつかの識別を得る:

返される識別は,明確な識別の数と要求された数のうち小さい方である:

各識別の確率を得る:

単一の録音に複数の音源が存在するかもしれないので,クラス確率は独立である.

オプション  (4)

AcceptanceThreshold  (2)

AcceptanceThresholdを使って返される結果の信頼度を制御する:

閾値を上げて確率が高い識別のみを得る:

AcceptanceThresholdは複数の識別を得る場合にも使われる:

閾値を下げてより多くの結果を得る:

Masking  (1)

さまざまなサウンドを含む音声録音の識別は混乱することがある:

マスキングオプションを使って信号中の特定の領域だけを識別する:

SpecificityGoal  (1)

SpecificityGoalオプションを使って結果の一般性を制御する:

アプリケーション  (3)

ExampleDataの中のすべてのサウンドを識別する:

さまざまなサウンドを含む信号について,複数の識別と確率を得る:

AudioBlockMapを使って1秒間の識別を行う:

同じ識別結果の区間をマージする:

結果をプロットする:

WebAudioSearchを使って動物の音の小さなデータベースを構築する:

FeatureSpacePlotを使って意味論的に重要な2D空間に埋め込まれた信号を可視化する:

信号を動物の音としてのみ識別する関数を定義する:

識別結果を使ってWordCloudを生成する:

特性と関係  (1)

AudioIdentifyが使うニューラルネットには,NetModelを使ってアクセスできる:

Wolfram Research (2019), AudioIdentify, Wolfram言語関数, https://reference.wolfram.com/language/ref/AudioIdentify.html.

テキスト

Wolfram Research (2019), AudioIdentify, Wolfram言語関数, https://reference.wolfram.com/language/ref/AudioIdentify.html.

CMS

Wolfram Language. 2019. "AudioIdentify." Wolfram Language & System Documentation Center. Wolfram Research. https://reference.wolfram.com/language/ref/AudioIdentify.html.

APA

Wolfram Language. (2019). AudioIdentify. Wolfram Language & System Documentation Center. Retrieved from https://reference.wolfram.com/language/ref/AudioIdentify.html

BibTeX

@misc{reference.wolfram_2024_audioidentify, author="Wolfram Research", title="{AudioIdentify}", year="2019", howpublished="\url{https://reference.wolfram.com/language/ref/AudioIdentify.html}", note=[Accessed: 05-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_audioidentify, organization={Wolfram Research}, title={AudioIdentify}, year={2019}, url={https://reference.wolfram.com/language/ref/AudioIdentify.html}, note=[Accessed: 05-November-2024 ]}