ClusterClassify
ClusterClassify[data]
データを同じような要素のクラスタに分割してClassifierFunction[…]を生成する.
ClusterClassify[data,n]
n 個のクラスタでClassifierFunction[…]を生成する.
詳細とオプション
- ClusterClassifyは,数値,テキスト,画像,日付と時点およびそれらの組合せを含むさまざまなデータタイプに使うことができる.
- クラスタの数は以下の形で指定できる.
-
Automatic クラスタ数を自動的に求める n 厳密に n 個のクラスタを求める UpTo[n] 最高で n 個のクラスタを求める - 使用可能なオプション
-
CriterionFunction Automatic メソッド選択の基準 DistanceFunction Automatic 使用する距離関数 FeatureExtractor Identity 学習するための特徴をどのように抽出するか FeatureNames Automatic 入力データに割り当てる特徴名 FeatureTypes Automatic 入力データに割り当てる特徴タイプ Method Automatic 使用するメソッド MissingValueSynthesis Automatic 欠測値の合成方法 PerformanceGoal Automatic パフォーマンスのどの面について最適化するか RandomSeeding 1234 どのような擬似乱数生成器のシードを内部的に使うべきか Weights Automatic 各例に与える重み - デフォルトで,ClusterClassifyは,DistanceFunctionが指定されていない限り自動的にデータの前処理を行う.
- DistanceFunctionの設定は,任意の距離,非類似度関数,あるいは2つの値間の距離を定義する関数 f でよい.
- PerformanceGoalの可能な設定
-
Automatic 速度,確度,メモリ間の自動トレードオフ "Memory" 分類器の必要メモリを最小にする "Quality" 分類器の確度を最大にする "Speed" 分類器の速度を最大にする "TrainingSpeed" 分類器の生成に使う時間を最小にする - Methodの可能な設定
-
Automatic メソッドを自動選択 "Agglomerate" 単一連結クラスタ化アルゴリズム "DBSCAN" 密度に基づくノイズを含むアプリケーションのクラスタ化 "GaussianMixture" ガウス混合アルゴリズムのバリエーション "JarvisPatrick" Jarvis–Patrickクラスタ化アルゴリズム "KMeans" k 平均クラスタ化アルゴリズム "KMedoids" メドイドの周りの分割 "MeanShift" 平均シフトクラスタ化アルゴリズム "NeighborhoodContraction" データ点を高密度領域にシフトさせる "SpanningTree" 最小全域木に基づいクラスタ化アルゴリズム "Spectral" スペクトルクラスタ化アルゴリズム - "KMeans"法と"KMedoids"法はクラスタ数が指定されているときにしか使用できない.
- "DBSCAN","GaussianMixture","JarvisPatrick","MeanShift","NeighborhoodContraction"の各メソッドは,クラスタ数がAutomaticのときしか使えない.
- 以下のプロットは,トイデータ集合に一般的なメソッドを適用した結果を示している.
- CriterionFunctionの可能な設定
-
"StandardDeviation" 二乗平均平方根標準偏差 "RSquared" R乗 "Dunn" Dunn指標 "CalinskiHarabasz" Calinski–Harabasz指標 "DaviesBouldin" Davies–Bouldin指標 "Silhouette" シルエットスコア Automatic 内部指標 - RandomSeedingの可能な設定
-
Automatic 関数が呼び出されるたびに自動的にシードを変える Inherited 外部シードの乱数を使う seed 明示的な整数または文字列をシードとして使う - ClusterClassify[…,FeatureExtractor"Minimal"]は,内部的な前処理はできる限り簡単にすべきであることを示している.
例題
すべて開くすべて閉じる例 (3)
数値データについてClassifierFunctionを訓練する:
クラス数が5になるように要求し,色についてClassifierFunctionを訓練する:
ラベルのないデータについてClassifierFunctionを使う:
文字列についてClassifierFunctionを訓練する:
スコープ (11)
分類器を使って新たなTrueとFalseのブールベクトルにクラスタを割り当てる:
分類器を使って1と0のブールベクトルにクラスタを割り当てる:
IndeterminateThresholdを使って同じテストデータを分類する:
Indeterminateクラスタを含む結果のクラスタ化を可視化する:
オプション (10)
CriterionFunction (1)
Automatic CriterionFunctionを使って分類器関数を構築する:
Calinski–Harabasz指標をCriterionFunctionとして使って分類器関数を構築する:
FeatureExtractor (1)
画像のリストからClassifierFunctionを作り,新たな例を分類する:
カスタムのFeatureExtractorを作って特徴を抽出する:
Method (2)
Informationを使ってメソッドの説明を得る:
多変量正規分布を使って大きいデータ集合を生成し,可視化する:
ClusterClassifyを使って使用メソッドを指定してクラスタを求め,AbsoluteTimingを見る:
ClusterClassifyを使って使用するメソッドを指定せずにクラスタを求め,AbsoluteTimingを見る:
MissingValueSynthesis (1)
多変量正規分布を使って大きいデータ集合を生成し,可視化する:
ClusterClassifyを使ってクラスタを求める:
欠落値の合成を設定して,欠落している各変数を,既知の値が与えられた場合に推定される最も可能性の高い値に置き換える(これはデフォルトの動作である):
PerformanceGoal (1)
クラスタをランダムに生成したデータに割り当て,AbsoluteTimingを見る:
クラスタをランダムに生成したデータに割り当て,AbsoluteTimingを上の例と比較する:
RandomSeeding (1)
新たな色について分類器を計算し,結果が常に等しいことを観察する:
RandomSeedingオプションの値を変えて,いくつかの分類器を同じ色について訓練する:
テキスト
Wolfram Research (2016), ClusterClassify, Wolfram言語関数, https://reference.wolfram.com/language/ref/ClusterClassify.html (2020年に更新).
CMS
Wolfram Language. 2016. "ClusterClassify." Wolfram Language & System Documentation Center. Wolfram Research. Last Modified 2020. https://reference.wolfram.com/language/ref/ClusterClassify.html.
APA
Wolfram Language. (2016). ClusterClassify. Wolfram Language & System Documentation Center. Retrieved from https://reference.wolfram.com/language/ref/ClusterClassify.html