"GaussianMixture" (機械学習メソッド)

詳細とサブオプション

  • "GaussianMixture"は,LearnDistributionとクラスタリング関数の両方で,多変量正規分布の混合を使って数値空間の確率密度をモデル化する.各ガウス分布は,"Multinormal"メソッドで定義されているように,その平均と共分散行列で定義される.
  • クラスタリング関数については,各正規分布はクラスタ成分を表す.各データ点は確率密度が最高の成分に割り当てられる.
  • LearnDistributionで使用される際には次のオプションを使うことができる.
  • "CovarianceType" Automatic共分散行列についての制約タイプ
    "ComponentsNumber" Automaticガウス分布の数
    MaxIterations100期待値最大化の反復の最大数
  • "CovarianceType"の可能な設定には以下がある.
  • "Diagonal"対角要素のみが学習される(その他は0に設定される)
    "Full"すべての要素が学習される
    "FullShared"各ガウス分布が同じ完全共分散を共有する
    "Spherical"対角要素だけが学習され,等しいと設定される
  • "CovarianceType""FullShared"の場合を除いて,それぞれの共分散行列は違ってもよい.
  • Information[LearnedDistribution[],"MethodOption"]を使って自動システムが洗濯したオプションの値を抽出できる.
  • LearnDistribution[,FeatureExtractor"Minimal"]を使ってほとんどの前処理を削除し,メソッドに直接アクセスできる.
  • クラスタリング関数については,クラスタ数が指定されていない場合はベイズ推定法を用いてクラスタ数が自動的に決定される.このメソッドは,混合係数よりも先にDirichletDistributionを使用し,コンポーネントの平均と共分散よりも前にWishartDistributionを使用する.このメソッドは,任意のクラスタサイズと密度に対して機能する.ただし,初期化パラメータの影響を受けやすく,クラスタが絡み合っている場合や異方性がある場合は失敗する可能性がある.
  • 次のプロットはトイデータ集合に適用された"GaussianMixture"クラスタリングメソッドの結果を示している.

例題

すべて開くすべて閉じる

  (5)

ガウス混合分布を数値データ集合で訓練する:

分布の情報(Information)を見る:

オプション情報を得る:

オプションの値を直接得る:

新たな例の確率密度を計算する:

確率密度関数(PDF)を訓練データと一緒にプロットする:

新たなサンプルを生成し,可視化する:

"GaussianMixture"で識別されるようなランダムな2Dベクトルのクラスタを求める:

"GaussianMixture"メソッドを使って同じような値のクラスタを求める:

ガウス混合分布を二次元データ集合について訓練する:

PDFを訓練データと一緒にプロットする:

SynthesizeMissingValuesを使い,学習済みの分布を使って欠落値を転嫁する:

ガウス混合分布を名義的データ集合で訓練する:

前処理が必要なので,PDFの計算は厳密ではない:

ComputeUncertaintyを使って結果の不確かさを得る:

MaxIterationsを大きくして推定の精度を上げる:

スコープ  (1)

ClusteringComponentsを使ってクラスタ指標の配列を求める:

オプション  (3)

"ComponentsNumber"  (1)

3個の成分で"GaussianMixture"分布を訓練する:

特定の点における分布のPDFを評価する:

1個,2個,3個,10個の成分で混合ガウス分布を訓練した後で得たPDFを可視化する:

"CovarianceType"  (1)

共分散を"Full"にして"GaussianMixture"分布を訓練する:

特定の点で分布のPDFを評価する:

共分散のタイプが"Full""Diagonal""Spherical""FullShared"の2つのガウス分布の混合分布を訓練した後で得たPDFを可視化する:

各共分散タイプのガウス分布の数を自動にして同じ操作を実行する:

Maxiterations  (1)

期待値最大化の回数を10に制限して"GaussianMixture"分布を訓練する:

特定の点で分布のPDFを評価する:

2成分の分布について期待値最大化アルゴリスムの収束を可視化する:

考えられる問題  (1)

2Dの月形の訓練と検定のデータ集合を作成して可視化する:

"GaussianMixture"を使ってClassifierFunctionを訓練し,検定集合中のクラスタ割当てを求める:

クラスタを可視化すると"GaussianMixture"が入り組んだクラスタに対してはあまりよい結果を出さないことが分かる: