"UMAP" (機械学習メソッド)

詳細とサブオプション

  • 一様多様体の近似と投影 (Uniform Manifold Approximation and Projection)を表す"UMAP"は非線形非パラメトリック次元削減法である.このメソッドはデータの局所構造と大域構造のバランスを保持しているデータの低次元表現を学ぼうとする.
  • "UMAP"は非線形多様体を含むデータに使うことができ,高次元データ集合の可視化に特に適している.
  • 以下は,"UMAP"法をベンチマークデータ集合のFisher's IrisesMNISTFashionMNISTに適用することで学んだ二次元埋込みを示している.
  • UMAPはデータの高次元グラフ表現を構築し,次に低次元グラフを最適化して構造的に可能な限り類似させる.
  • UMAPは,最初の高次元グラフを構築するために,辺の重みが2点が接続されている可能性を表す重み付きグラフを作成する.そうするために,UMAPは各点の 最近傍までの距離に基づいて半径を局所的に選択する.2点が接続されている可能性は点の間の距離とこの半径の比とともに指数関数的に減少する.
  • UMAPは,高次元グラフが構築されると低次元の類似体のレイアウトが出来るだけ同じになるように最適化する.
  • UMAPは,各点が少なくともその最近傍と接続していなければならないと定めることで局所構造と大域構造のバランスが保持されることを確実にする.
  • 次は,使用可能なサブオプションである.
  • "MinDistance" 0.1悌次元空間における点と点の間の最短距離
    "NeighborsNumber" 15高次元グラフを構築するための最近傍の数
  • "MinDistance"はUMAPの点がどの程度密に集まるかを制御する.この値が低いほどきっちり詰まった埋込みになる.値が大きいと,UMAPはより疎に点を集め,代りに位相構造の保持に力点を置くようになる.
  • "NeighborsNumber"は,事実上,UMAPの局所構造と大域構造のバランスの取り方を制御する.この値が低いと局所構造に焦点が置かれ,値が高いと全体の構造を表す方に焦点が置かれるが細かな点は失われる.

例題

すべて開くすべて閉じる

  (1)

"UMAP"メソッドを使って画像の次元を削減する:

画像の二次元表現を可視化する:

オプション  (2)

"MinDistance"  (1)

"MNIST"データ集合からサンプルをロードする:

"UMAP"を使って画像の次元を削減する:

UMAPメソッドを実行する前に"MinDistance"サブオプションを使って線形削減を行うことで特徴を求める:

取得した特徴を可視化し,結果を比較する:

"NeighborsNumber"  (1)

ExampleDataからフィッシャー(Fisher)のアヤメのデータ集合をロードする:

"UMAP"メソッドを使って削減器関数を生成する:

例をその種によってグループ化する:

特徴の次元を削減する:

削減されたデータ集合を可視化する:

異なる数の最近傍を使って同じ操作を行い,高次元グラフを構築する:

アプリケーション  (1)

データの可視化  (1)

"UMAP"メソッドを使っていくつかの画像の次元を削減する:

画像の二次元表示を可視化する: