ClusteringMeasurements

ClusteringMeasurements[{{e1,e2,},},meas]

クラスタリングの例 eiの測定値 meas を返す.

ClusteringMeasurements[clusters,gt,meas]

グランドトゥルースクラスタリング gt を想定する.

詳細とオプション

  • ClusteringMeasurementsはクラスタリング過程の結果の分析に使われる.クラスタ化されたデータに単独で使ったり,グランドトゥルース情報でそれらを比較したりすることができる.
  • 次は,可能なクラスタリング指定 clusters である.
  • {{e1,e2,},}クラスタ例のリスト
    <|l1{e1,e2,},|>ラベルが liのクラスタ例の連想
    {e1l1,e2l2,}例とそれに対応するクラスタラベルのリスト
    {e1,e2,}{l1,l2,}例とラベルの2つのリスト
    {e1,e2,}cfunClassifierFunctionによる陰的な分類
  • 次は,可能なグランドトゥルース指定 gt である.
  • {{e1,e2,},}例のクラスタのリスト
    <|l1{e1,e2,},|>クラスタでラベルが付けられた例のリストの連想
    {e1l1,e2l2,}例のリストと対応するクラスタ
    {e1,e2,}{l1,l2,}例とクラスタの別々のリスト
    {l1,l2,}各例のクラスタラベルがあるリスト
  • 次は,測定 meas の可能な形である.
  • "Summary"測定値の要約表
    "name"特定の測定値"name"
    {"name1","name2",}測定値のリスト
    All使用可能なすべての測定
    "Properties"使用可能な測定名のリスト
  • 測定値は内部のものと外部のものに分割できる.
  • 内部測定は,一般に,よいクラスタはほどよく離れていて分散度が低いと想定する.
  • 次は,一般的な分離(クラスタ間距離)の定義である.
  • 次は,一般的な分散(クラスタ内距離)の定義である.
  • eieはクラスタおよびデータ集合全体の平均を表す.
  • 次は,サポートされる内部測定値 meas である.
  • "CalinskiHarabasz"平均分離と平均重心分離との比(最大化)
    "DaviesBouldin"クラスタペアの重心分離に対する重心分散の合計の平均最大比 (最小化)
    "Dunn"データ集合の最大分散に対する最小の最小分離の比率 (最大化)
    "RSquared"データ集合の重心分散に対する平均分散の比率 (屈曲)
    "Silhouette"クラスタ間距離と次に近いクラスタのクラスタ間距離の平均差 (最大化)
    "StandardDeviation"平均分散 (屈曲)
  • クラスタまたは例を介して結果を返す内部測定値には以下がある.
  • "DaviesBouldinScore"最大クラスタ類似度
    "RSquaredScore"クラスタと全体的なデータ集合の分散の比
    "SilhouetteScore"クラスタ間距離と次に近いクラスタのクラスタ間距離の差
    "SilhouetteScoreList"例ごとのシルエット値
    "StandardDeviationScore"平均分散
  • 外部測度は例 eiのクラスタ割当てをそのグランドトゥルース値 gtと比較する.
  • 次は,サポートされる外部測定値である.
  • "Purity"クラスタ内で最も一般的なグラウンド トゥルースの割当てを持つ例の割合(最大化)
    "Rand"同じグラウンド トゥルース割当てを正しく共有する,または共有しない(ei,ej)ペアの割合(最大化)
  • 次は,クラスタまたは例を介して結果を返す外部測定である.
  • "PurityScore"各クラスタで同じグラウンドトゥルース割当てを共有するサンプルの最大部分
    "RandScore"各クラスタで同じグラウンドトゥルース割当てを正しく共有する,または共有しない(ei,ej)ペアの割合
  • ClusteringMeasurements[,{"prop1","prop2",}]を使って複数の特性が計算できる.
  • ClusteringMeasurementsは以下のオプションをサポートする.
  • DistanceFunction Automatic使用する距離関数
    FeatureExtractor Identity例から特徴をどのように抽出するか
  • デフォルトで,次の距離関数がさまざまな要素に使われる.
  • EuclideanDistance数値データ
    ImageDistance画像
    JaccardDissimilarityブールデータ
    EditDistanceテキストおよび名義列
    Abs[DateDifference[#1,#2]]&日付と時刻
    ColorDistance
    GeoDistance地理空間データ
    Boole[SameQ[#1,#2]]&名義データ
    HammingDistance名義ベクトルデータ
    WarpingDistance数列

例題

すべて開くすべて閉じる

  (2)

クラスタリング測定値の要約を得る:

クラスタ群についてシルエットスコアを計算する:

スコアを棒グラフで可視化する:

ここの例のシルエットスコアを計算してグラフにする:

スコープ  (9)

データ形式  (5)

クラスタをリスト中で明示的に指定する:

クラスタを連想中で明示的に指定する:

例と連想間の規則のリストでクラスタを指定する:

例と連想間の規則でクラスタを指定する:

例とClassifierFunction[]間の規則でクラスタを指定する:

測定  (4)

クラスタリング特性を計算する:

特性のリストを計算する:

大域的測定の要約を計算する:

使用可能な特性のリストを得る:

グランドトゥルースが指定されているときに使用可能な特性のリストを得る:

オプション  (2)

DistanceFunction  (1)

カスタムの距離関数を指定する:

FeatureExtractor  (1)

カスタムの特徴抽出器を指定して例の前処理を行う:

アプリケーション  (2)

合成データ集合についての最適クラスタ数を求める:

ランダム置換で異なる群を結合する:

k のさまざまな値について k 平均クラスタリングを計算する:

各クラスタ集合のDunn指標を測定する:

最適クラスタリングは5つのクラスタである:

クラスタリング過程でもとの群がすべて回復できた:

クラスタリングの各点のシルエットスコアを可視化する:

与えられた kk 平均クラスタリングを計算する:

シルエットスコアを可視化する:

k のさまざまな値について k 平均クラスタリングを計算する:

各クラスタ集合を対応するシルエットプロファイルとともにプロットする:

考えられる問題  (1)

外部測定にはグランドトゥルース指定が必要である:

インタラクティブな例題  (1)

CalinskiHarabasz指標をインタラクティブに測定する点のリストをクラスタ化する:

Wolfram Research (2022), ClusteringMeasurements, Wolfram言語関数, https://reference.wolfram.com/language/ref/ClusteringMeasurements.html.

テキスト

Wolfram Research (2022), ClusteringMeasurements, Wolfram言語関数, https://reference.wolfram.com/language/ref/ClusteringMeasurements.html.

CMS

Wolfram Language. 2022. "ClusteringMeasurements." Wolfram Language & System Documentation Center. Wolfram Research. https://reference.wolfram.com/language/ref/ClusteringMeasurements.html.

APA

Wolfram Language. (2022). ClusteringMeasurements. Wolfram Language & System Documentation Center. Retrieved from https://reference.wolfram.com/language/ref/ClusteringMeasurements.html

BibTeX

@misc{reference.wolfram_2024_clusteringmeasurements, author="Wolfram Research", title="{ClusteringMeasurements}", year="2022", howpublished="\url{https://reference.wolfram.com/language/ref/ClusteringMeasurements.html}", note=[Accessed: 23-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_clusteringmeasurements, organization={Wolfram Research}, title={ClusteringMeasurements}, year={2022}, url={https://reference.wolfram.com/language/ref/ClusteringMeasurements.html}, note=[Accessed: 23-November-2024 ]}