|
3.2.14 統計分布と関連関数
Mathematicaには標準パッケージとして一般的な統計分布の分析に使う関数を収録してある. Mathematicaでは,統計分布そのものがシンボルを使った形式 name[ , , ... ]で表される.ここで, は分布を決定するためのパラメータ(母数)である.統計分布の特性を与える Mean等の関数は,分布を表したシンボル的なオブジェクトを引数として取る.

パッケージ Statistics`ContinuousDistributions`にある統計分布関数
普通よく使われる連続的な分布は,正規分布 NormalDistribution[ , ]から導かれたものが多い.正規分布は, で表される確率密度関数を持つ.有界な分散を持った任意の分布に従う確率変数を抽出するとき,中心極限定理により,十分大きな標本の集合に対しては標本平均は正規分布に近付く.
対数正規分布 LogNormalDistribution[ , ]は,正規分布している確率変数の指数の分布である.この分布は多くの独立した確率変数が乗積の形で組み合されたときに見られる.
カイ2乗分布 ChiSquareDistribution[n]は, を平均0分散1の正規分布に従う確率変数とするときの, で表される量の分布である.カイ2乗分布は正規分布から標本がどう分散しているか,その分布を与える.
スチューデント 分布 StudentTDistribution[n]は,正規分布する変数を自由度 でカイ2乗分布する変数で割った比の従う分布を表す.データから平均と分散を計算したとき, 分布を使い平均の持つ不確定性についての特徴付けを行うことができる.
F比分布 FRatioDistribution[ , ]は,F分布または分散比分布とも呼ばれ, と をそれぞれ自由度とするカイ2乗変数の比がどう分布しているかを表す.異なるモデルの分散の解析にF比分布が用いられる.
極値分布 ExtremeValueDistribution[ , ]は,正規分布を含むさまざまな分布から抽出した大きな母集団が持つ最大値と最小値の取り得る極限分布を表す.

統計分布を引数とする関数
累積分布関数(cdf)CDF[dist, x]は,分布の確率密度関数を 点まで積分することで与えられる.正規分布のcdfは とも書かれる.cdfは統計的仮説の判定評価に使われる.離散分布では, 点までの確率を総和することでcdfが求まる.cdfは単に分布関数とも呼ばれる.任意の分布に対応した特定の点 におけるcdfは,分布の母数を としたとき, と表記される.「上半の裾部」はcdfを用いて で与えられる.したがって,自由度 のカイ2乗分布における上半の裾部は, と表せ,また,その値は 1 - CDF[ChiSquareDistribution[nu], chi2]で与えられる.
分位 Quantile[dist, q]は,実質的には累積分布関数の逆関数である.つまり,この関数は qに対して CDF[dist, x]が qに到達する点 xを与える.中央値(メディアン)なら, Quantile[dist, 1/2]で得られるし,また,4分位(クォータイル),10分位(ディサイル),100分位(パーセンタイル)も,分位関数を使って得られる.分位は統計的母数の推定における信頼区間を構築するために使われる.
特性関数 CharacteristicFunction[dist, t]は, を確率密度とした で与えられる.ある分布における 次の中心積率は 階の導関数 で与えられる.
Random[dist]は分布distに従う擬似乱数を返す.擬似乱数のシード(種)設定については 3.2.3を参照してほしい.
連続統計分布の解析パッケージを読み込ませる.
In[1]:= <<Statistics`ContinuousDistributions`
平均0で単位分散を持つ正規分布を入力しておく.
In[2]:= ndist = NormalDistribution[0, 1]
Out[2]= 
正規分布の累積分布関数を求める.結果はシンボル形式で得られる.
In[3]:= CDF[ndist, x]
Out[3]= 
今度は,正規分布の累積分布関数が に達する点の値( CDFの )を求める.
In[4]:= Quantile[ndist, 0.9] // N
Out[4]= 
正規分布に従う擬似乱数を5つ生成す る.乱数はリスト形式で求まる.
In[5]:= Table[ Random[ndist], {5} ]
Out[5]= 

パッケージStatistics`DiscreteDistributions`にある統計分布関数
普通よく使われる離散的統計分布は,例えば「当たり」と「はずれ」のように2つの事象からなる一連の「試行」を考察することで導かれる.
ベルヌーイ分布 BernoulliDistribution[p]は,1回の試行に関する確立分布を表す.ここで,値を1とする「当たり」が起る確率を とし,値を0とする「はずれ」が起る確立を とする.
2項分布 BinomialDistribution[n, p]は,「当たり」の確率を としたとき, 回の独立した試行の結果得られる「当たり」回数の分布を表す.この分布は で与えられる.
負の2項分布 NegativeBinomialDistribution[r, p]は,確率を とした「当たり」が 回得られるまでに起った「はずれ」の回数が一連の試行でどう分布するかを表す.
幾何分布 GeometricDistribution[p]は,確率を とした「当たり」が初めて起るまで何回試行が繰り返されたか,その回数の分布を表す.
超幾何分布 HypergeometricDistribution[n, , ]は,「当たり」が 個含まれる大きさ の母集団から 回の非復元抽出を行うときの2項分布に対応する分布である.
離散一様分布 DiscreteUniformDistribution[n]は, 通りの結果が同じ確率で起る試行についての分布である.
|