"LatentSemanticAnalysis" (機械学習メソッド)

詳細とサブオプション

  • "LatentSemanticAnalysis"は線形次元削減法である.このメソッドは,データ点間の意味的連想を保持しようとする低次元空間に入力データを投影する.
  • "LatentSemanticAnalysis"は多数の特徴を持つ,あるいは多数の例があるデータ集合に使うことができ,特に(ほとんどの値が0である)疎なデータ集合に対してうまく働く."LatentSemanticAnalysis"は,検索語・文書行列(文書内の語数)の次元削減によく使われる.
  • 次のプロットは"LatentSemanticAnalysis"メソッドをベンチマーキングデータ集合のFisher's IrisesMNISTFashionMNISTに適用した結果である.
  • "LatentSemanticAnalysis"は,データが中央に配置されていない点を除いて"Linear""PrincipalComponentsAnalysis"に等しい.
  • このメソッドは,検索エンジンを作成するための情報検索に広く使われている.このメソッドは自然言語処理におけるテキストの分類やトピックのモデル化にも使われている.

例題

すべて開くすべて閉じる

  (1)

"LatentSemanticAnalysis"メソッドを使って線形次元削減器をベクトルのリストで訓練する:

訓練された削減器を新たなベクトルに使う:

スコープ  (1)

データ集合の可視化  (1)

フィッシャー(Fisher)の「アヤメ」のデータ集合をExampleDataからロードする:

"LatentSemanticAnalysis"を各例の特徴と一緒に使って削減器関数を生成する:

例をその種でグループ化する:

特徴の次元を削減する:

削減されたデータ集合を可視化する:

アプリケーション  (1)

テキスト解析  (1)

「ドン・キホーテ」のテキストをロードする:

テキストを文に分割する:

削減器をこれらの文で訓練する:

文の埋込みに最も近い関数を訓練する:

削減された意味空間で,この関数を使ってクエリに最も近い文を求める: