統計モデル解析

モデルをデータにフィットさせるとき,そのモデルがいかによくデータにフィットしているか,またそのフィットがモデルの仮定にどの程度一致しているかを解析すると便利なことがよくある.Wolframシステムでは,一般の統計モデルの多くでFittedModelオブジェクトを構築するフィット関数によりこれが実現できる.

FittedModel記号的にフィットされたモデルを表す

フィットされたモデル情報のためのオブジェクト

FittedModelオブジェクトはある時点で評価することも,結果や診断情報を問い合わせることもできる.診断はモデルの型により多少異なる.利用できるモデルフィット関数は,線形,一般化された線形,非線形の各モデルにフィットする.

LinearModelFit線形モデルを構築する
GeneralizedLinearModelFit一般化された線形モデルを構築する
LogitModelFit二項ロジスティック回帰モデルを構築する
ProbitModelFit二項プロビット回帰モデルを構築する
NonlinearModelFit非線形最小二乗モデルを構築する

FittedModelオブジェクトを生成する関数

これは の値が1, 2, であると仮定して線形モデルにフィットさせる.
In[1]:=
Click for copyable input
Out[1]=
次はフィットされたモデルの関数形式である.
In[2]:=
Click for copyable input
Out[2]=
のときのモデルを評価する.
In[3]:=
Click for copyable input
Out[3]=
線形フィットされたモデルについて利用できる結果の短縮されたリストである.
In[4]:=
Click for copyable input
Out[4]//Short=

LinearModelFit等のモデルフィット関数とFitFindFit等の関数との大きな違いは,診断情報をFittedModelオブジェクトからいかに簡単に取得できるかという点にある.この結果はモデルを再フィットしなくてもアクセスできる.

次はフィットの残差を与える.
In[5]:=
Click for copyable input
Out[5]=
一度に複数の結果がリストで取得される.
In[6]:=
Click for copyable input
Out[6]=

プロパティの計算に関係するフィットのオプションは,FittedModelオブジェクトに渡され,デフォルトがオーバーライドされる.

次はデフォルトの95%の信頼区間を与える.
In[7]:=
Click for copyable input
Out[7]=
ここでは90%の区間が得られる.
In[8]:=
Click for copyable input
Out[8]=

これらのモデルフィット関数の一般的なデータは,FitFindFitなどの他のフィット関数のデータと同じ形式を取る.

{y1,y2,}, , を取る単独の予測変数を持つ点
{{x11,x12,,y1},{x21,x22,,y2},}明示的な座標を持つデータ点

データの指定

線形モデル

独立正規分布に従う誤差を仮定した線形モデルは,データのモデルで最も一般的なもののひとつである.このタイプのモデルはLinearModelFit関数を用いてフィットすることができる.

LinearModelFit[{y1,y2,},{f1,f2,},x]基底関数が ,単独の予測変数が x である線形モデルを得る
LinearModelFit[{{x11,x12,,y1},{x21,x22,,y2}},{f1,f2,},{x1,x2,}]複数の予測変数が である線形モデルを得る
LinearModelFit[{m,v}]計画行列 m と応答ベクトル v に基づく線形モデルを得る

線形モデルのフィット

線形モデルの形式は であり, はフィットあるいは予測された値, はフィットされるためのパラメータ, は予測変数 の関数を表す.モデルはパラメータ において線形である. は予測変数のいかなる関数でもよい. は単に予測変数 となることが多い.

以下は線形モデルを最初の20個の素数にフィットする.
In[9]:=
Click for copyable input
Out[9]=

モデル指定およびモデル解析のためのオプションが利用できる.

オプション名
デフォルト値
ConfidenceLevel95/100パラメータおよび予測に使う信頼水準
IncludeConstantBasisTrue一定の基底関数を含むかどうか
LinearOffsetFunctionNone線形予測子における既知のオフセット
NominalVariablesNone名義あるいはカテゴリと考えられる変数
VarianceEstimatorFunctionAutomatic誤差分散を推定するための関数
WeightsAutomaticデータ要素の重み
WorkingPrecisionAutomatic内部計算で使用する精度

LinearModelFitのオプション

Weightsオプションは重み付きの線形回帰に対する重みの値を指定する.NominalVariablesオプションはどの予測変数を名義あるいはカテゴリ変数として扱うかを指定する.NominalVariables->Allの設定では,モデルは分散分析(ANOVA)モデルである.NominalVariables->{x1,,xi-1,xi+1,,xn}では,モデルは共分散分析(ANCOVA)モデルで 番目の予測子以外はすべて名義変数として扱われる.名義変数は二値変数の集まりで表され,その変数の観察された名義カテゴリ変数の等式および不等式を示す.

ConfidenceLevelVarianceEstimatorFunctionWorkingPrecisionは最初のフィットの後の結果の計算に関係している.これらのオプションはLinearModelFit内部で設定することができ,FittedModelオブジェクトから得られた結果のデフォルト設定を指定する.また,すでに構築されたFittedModelオブジェクトの内部で設定し,最初にLinearModelFitに与えられたオプション値をオーバーライドすることもできる.

以下はデフォルトで平均の平方誤差分散推定である.
In[10]:=
Click for copyable input
Out[10]=

IncludeConstantBasisLinearOffsetFunctionNominalVariablesWeightsはフィットにだけ関係する.すでに構築されているFittedModelオブジェクト内でこれらのオプションを設定しても結果には何の影響もない.

モデルフィットフレームワークの大きな特徴は,フィットの後の結果を得ることができるということである.利用できる結果の一覧はを使って得ることができる.

以下は線形モデルで利用できるプロパティの数である.
In[11]:=
Click for copyable input
Out[11]=

プロパティにはデータに関する基本的な情報,フィットされたモデル,多数の結果,診断が含まれている.

"BasisFunctions"基底関数のリスト
"BestFit"フィットされた関数
"BestFitParameters"パラメータ推定
"Data"入力データあるいは計画行列と応答ベクトル
"DesignMatrix"モデルに対する計画行列
"Function"一番よいフィットの純関数
"Response"入力データの応答値

データとフィットされた関数に関連するプロパティ

プロパティはフィットされたパラメータ値を与える.はフィットされた関数 であり,はフィットされた関数を純関数として与える.は,定数項がモデルに存在する場合に を定数1とした関数 のリストを与える.はデータの計画行列またはモデル行列である.は応答のリスト,あるいはもとのデータからの 値を与える.

"FitResiduals"実際応答と予測応答の差
"StandardizedResiduals"各残差について標準誤差で割られた残差
"StudentizedResiduals"単一の削除誤差推定で割られた残差

残差のタイプ

残差はフィットされた値ともとの応答との点による差分を測定する.は観察された値とフィットされた値の差分を与える.およびは残差のスケールされた形式である. 番目の標準化された残差は である.ここで は推定誤差分散, はハット行列の 番目の対角要素, 番目のデータ点の重みである. 番目のスチューデント化された残差も同じ式で, 番目のデータ点を省略した分散推定)で置き換えたものである.

"ANOVATable"分散分析表
"ANOVATableDegreesOfFreedom"ANOVA表からの自由度
"ANOVATableEntries"表からのフォーマットされていない配列の値
"ANOVATableFStatistics"表からのF統計量
"ANOVATableMeanSquares"表からの平方平均誤差
"ANOVATablePValues"表からの
"ANOVATableSumsOfSquares"表からの平方和
"CoefficientOfVariation"推定標準偏差で割られた応答平均
"EstimatedVariance"誤差分散の推定
"PartialSumOfSquares"非定数基底関数が除去されたときのモデル平方和の変化
"SequentialSumOfSquares"要素ごとに区切られたモデル平方和

誤差平方和に関する特性

はモデルに対するフォーマットされた分散分析表を与える.は表の中の数値的項目を与える.その他のプロパティは,表の中の個々の部分が今後の計算で簡単に使えるように表の列の要素を与える.

以下はフィットされたモデルに対するフォーマットされたANOVA表を与える.
In[12]:=
Click for copyable input
Out[12]=
表のMSの列の要素である.
In[13]:=
Click for copyable input
Out[13]=
"CorrelationMatrix"パラメータ相関行列
"CovarianceMatrix"パラメータ共分散行列
"EigenstructureTable"パラメータ相関行列の固有構造
"EigenstructureTableEigenvalues"表からの固有値
"EigenstructureTableEntries"表からのフォーマットされていない値の配列
"EigenstructureTableIndexes"表からの指標値
"EigenstructureTablePartitions"表からの区分
"ParameterConfidenceIntervals"パラメータ信頼区間
"ParameterConfidenceIntervalTable"フィットされたパラメータの信頼区間情報の表
"ParameterConfidenceIntervalTableEntries"表からのフォーマットされていない値の配列
"ParameterConfidenceRegion"楕円体パラメータ信頼領域
"ParameterErrors"パラメータ推定の標準誤差
"ParameterPValues"パラメータの 統計に対する
"ParameterTable"フィットされたパラメータ情報の表
"ParameterTableEntries"表からのフォーマットされていない値の配列
"ParameterTStatistics"パラメータ推定の 統計
"VarianceInflationFactors"推定パラメータの拡大要因のリスト

パラメータ推定の特性と診断

はフィットされたパラメータ間の共分散を与える.その行列は sigma^^^2TemplateBox[{{(, X}}, Transpose]W X)^(-1) であり,ここで は分散推定, は計画行列, は重みの対角行列である.はパラメータ推定に対して関連付けられた相関行列である.は共分散行列の対角要素の平方根に等しい.

およびには各パラメータ推定,パラメータ有意性の検定,信頼区間についての情報が含まれる.

データである.
In[14]:=
Click for copyable input
両方の予測変数を使ってモデルをフィットする.
In[15]:=
Click for copyable input
Out[15]=
以下はパラメータおよびパラメータ信頼区間のフォーマットされた表である.
In[16]:=
Click for copyable input
Out[16]=
この表では99%の信頼区間が使われている.
In[17]:=
Click for copyable input
Out[17]=

上記の表のEstimateの列はに等しい.t 統計は推定を標準誤差で割ったものである.それぞれの p 値は,t 統計に対しては両側 p 値であり,パラメータ推定が統計的に0と有意差があるかどうかを判定するために使われる.それぞれの信頼区間はConfidenceLevelオプションにより設定された水準で,パラメータ信頼区間の上限と下限を与える.表の列やフォーマットされていない値の配列を得るために,およびのさまざまなプロパティが使える.

は基底関数間の多重共線性を測定するために使われる. 番目の拡大要因は に等しい.ここで 番目の基底関数を別の基底関数の線形関数にフィットすることからの変動係数である.IncludeConstantBasis->Trueの設定では,最初の拡大要因は定数項に対するものとなる.

は固有値,条件指標,非定数基底関数に対する分散分割を与える.Indexの列は最大固有値に対する固有値の比の平方根である.それぞれの基底関数の列は,関連付けられた固有ベクトルにより説明される基底関数における変動の割合である.は表におけるすべての基底関数に対する変動分割の値を与える.

"BetaDifferences"パラメータ値の影響のDFBETAS尺度
"CatcherMatrix"キャッチャー行列
"CookDistances"クック(Cook)の距離のリスト
"CovarianceRatios"観察影響のCOVRATIO尺度
"DurbinWatsonD"自己相関のダービン・ワトソン(DurbinWatson) 統計
"FitDifferences"予測値に対する影響のDFFITS尺度
"FVarianceRatios"観察影響のFVARATIO尺度
"HatDiagonal"ハット行列の対角要素
"SingleDeletionVariances" 番目のデータ点を除いた変動推定のリスト

影響尺度関連特性

点の規模での影響の測定は,各データ点がフィットに大きい影響を与えるかどうかを評価するために使われることがよくある.ハット行列とキャッチャー行列はそのような診断で重要な役割を果たす.ハット行列は となるような行列 であり,ここで は観察された応答ベクトル, は予測された応答ベクトルである.はハット行列の対角要素を与える.(ここで はフィットしたパラメータベクトル)となるような行列 である.

はそれぞれのデータ点がフィットされた値または予測された値に及ぼす値を測定するDFFITS値を与える. 番目のDFFITS値は で記述される.ここで 番目のハット対角要素であり, 番目のスチューデント化された残差である.

はそれぞれのデータ点がモデルのパラメータに及ぼす影響を測定するDFBETAS値を与える. 個のパラメータを持つモデルの場合, 番目の要素は長さ のリストであり, 番目の値がデータ点 がモデルの中の 番目のパラメータに及ぼす影響を測定する. 番目のベクトルは と書くことができ,ここで はキャッチャー行列の , 番目の要素を表す.

は,与えられた影響力のクック距離を返す. 番目のクック距離は (ここで 番目の標準化された残差)で与えられる.

番目の要素は で与えられ, 番目の値は に等しい(ここで 番目の単独の削除変動である).

ダービン・ワトソン 統計のは一次の自己回帰過程を存在を検定するために使われる. 統計は(ここで 番目のの残差)に等しい.

以下で二変量モデルに対するクック距離をプロットする.
In[18]:=
Click for copyable input
Out[18]=
"MeanPredictionBands"平均予測の信頼帯
"MeanPredictionConfidenceIntervals"平均予測の信頼区間
"MeanPredictionConfidenceIntervalTable"平均予測の信頼区間表
"MeanPredictionConfidenceIntervalTableEntries"表からのフォーマットされていない値の配列
"MeanPredictionErrors"平均予測の標準誤差
"PredictedResponse"データのフィットされた値
"SinglePredictionBands"1回の観察に基づいた信頼帯
"SinglePredictionConfidenceIntervals"1回の観察の予想される応答の信頼区間
"SinglePredictionConfidenceIntervalTable"1回の観察の予想される応答の信頼区間の表
"SinglePredictionConfidenceIntervalTableEntries"表からのフォーマットされていない値の配列
"SinglePredictionErrors"1回の観察の予測応答の標準誤差

予測値関連特性

信頼区間の表形式の結果はおよびで与えられる.これには観測された応答と予測された応答,標準誤差推定,各点に対する信頼区間が含まれる.平均の予測信頼区間は単に信頼区間と言われ,単独の予測信頼区間は予測区間と言われることが多い.

平均の予測区間は,予測子の固定値における応答 の平均の信頼区間を与えるものであり,により与えられる.ここで は,自由度 のスチューデントの 分布の 分位数, は固定された予測子で評価された基底関数のベクトル, はパラメータに対する推定分散行列である.単一の予測区間は,予測子の固定値において を予測するための信頼区間を与えるもので, で与えられる.ここで は推定誤差分散である.

は,平均および単一の予測信頼区間の式を予測変数の関数として与える.

次は平均の予測表である.
In[19]:=
Click for copyable input
Out[19]=
以下は90%の予測区間である.
In[20]:=
Click for copyable input
Out[20]=
"AdjustedRSquared"モデルパラメータの数に適応された
"AIC"赤池情報量基準
"BIC"ベイズ(Bayes)情報量基準
"RSquared"決定係数

適合度の尺度特性

適合度はモデルがどの程度フィットしているかを評価するため,あるいはモデルを比較するために使用される.決定係数は,総平方和に対するモデルの平方和の比である.はモデルのパラメータの数に対して罰則付きで,により与えられる.

は尤度に基づき適合度を測定する.これはどちらもモデルの対数尤度の倍に は予測される分散を含む,予測されるパラメータの数)を足したものに等しい. では のとき,では である.

一般化された線形モデル

線形モデルはそれぞれの応答値 が平均値 の正規分布からの観察となっているモデルとみることができる.一般化された線形モデルは,形式 のモデルに拡張される.ここでそれぞれの は,平均が が指数型分布族のサポート上の可逆関数である,既知の指数型分布族からの観察であると想定される.この種類のモデルはGeneralizedLinearModelFitで得ることができる.

GeneralizedLinearModelFit[{y1,y2,},{f1,f2,},x]基底関数 ,単独の予測変数 x の一般化された線形モデルを得る
GeneralizedLinearModelFit[{{x11,x12,,y1},{x21,x22,,y2}},{f1,f2,},{x1,x2,}]複数の予測変数 の一般化された線形モデルを得る
GeneralizedLinearModelFit[{m,v}]計画行列 m と応答ベクトル v に基づく一般化された線形モデルを得る

一般化された線形モデルのフィット

可逆関数 は連結関数と呼ばれ,線形結合 は線形予測子と呼ばれる.一般的な特殊ケースとして,恒等リンク関数とガウスまたは正規の指数型分布族を持つ線形回帰モデル,確率に対するロジットおよびプロビットモデル,カウントデータに対するポアソンモデル,ガンマおよび逆ガウスモデルがある.

誤差分散は予測 の関数であり,分散パラメータとして言及される定数 までの分布により定義される.フィットされた値に対する誤差分散 と書くことができる.ここで は観察された応答値および予測された応答力得られた分散パラメータであり, は指数型分布族に関連付けられた分散関数である.

次は線形回帰モデルをフィットする.
In[21]:=
Click for copyable input
Out[21]=
同じデータに正準ガンマ回帰モデルをフィットする.
In[22]:=
Click for copyable input
Out[22]=
次はモデルの関数的形式である.
In[23]:=
Click for copyable input
Out[23]=

ロジットおよびプロビットモデルは確率でよく使われる二項モデルである.ロジットモデルの連結関数はであり,プロビットモデルの連結関数は標準の正規分布に対してはCDFの逆関数である.このタイプのモデルは,ExponentialFamily->"Binomial"で適切なLinkFunctionを持つGeneralizedLinearModelFit,またはLogitModelFitProbitModelFitでフィットすることができる.

LogitModelFit[data,funs,vars]基底関数 funs,予測子変数 vars のロジットモデルを得る
LogitModelFit[{m,v}]計画行列 m,応答ベクトル v のロジットモデルを得る
ProbitModelFit[data,funs,vars]data に対するプロビットモデルのフィットを得る
ProbitModelFit[{m,v}]計画行列 m,応答ベクトル v へのプロビットモデルのフィットを得る

ロジットおよびプロビットモデルのフィット

パラメータ推定は,想定される分布の分散関数から得られた重みで繰返し最小二乗に重みを付けることにより得られる.GeneralizedLinearModelFitのオプションには,PrecisionGoal等の反復フィットに対するオプション,LinkFunction等のモデル指定に対するオプション,ConfidenceLevel等の更なる解析のためのオプションが含まれる.

オプション名
デフォルト値
AccuracyGoalAutomatic目標確度
ConfidenceLevel95/100パラメータと予測の信頼水準
CovarianceEstimatorFunction"ExpectedInformation"パラメータ共分散行列のための推定法
DispersionEstimatorFunctionAutomatic誤差分散を推定する値または関数
ExponentialFamilyAutomaticy の指数型分布
IncludeConstantBasisTrue定数基底関数を入れるかどうか
LinearOffsetFunctionNone線形予測量における既知のオフセット
LinkFunctionAutomaticモデルの連結関数
MaxIterationsAutomatic使用する最大反復回数
NominalVariablesNone名義的,カテゴリ的とみなされる関数
PrecisionGoalAutomatic目標とする精度
WeightsAutomaticデータ要素の重み
WorkingPrecisionAutomatic内部計算で使われる精度

GeneralizedLinearModelFitで使用可能なオプション

LogitModelFitおよびProbitModelFitのオプションはGeneralizedLinearModelFitのオプションと同じであるが,異なる点はExponentialFamilyLinkFunctionはロジットあるいはプロビットモデルにより定義されるため,これらはLogitModelFitおよびProbitModelFitのオプションではないという点だけである.

ExponentialFamilyにはを取ることができる.二項モデルは0から1までの応答に有効である.ポワソンモデルは非負の整数の応答に有効である.ガウス,正規モデルは実数応答に,ガンマおよび逆ガンマモデルは正の応答に有効である.擬似尤度モデルは, 番目のデータ点に対する擬似尤度関数の対数が で与えられるような分散関数 で分布構造を定義する.モデルの分散関数は,オプションでExponentialFamily->{"QuasiLikelihood", "VarianceFunction"->fun}として設定することができる.ここで fun はフィットされた値に適用される純関数である.

DispersionEstimatorFunctionは分散パラメータ を推測するための関数を定義する.推定 は線形および非線形回帰モデルでいう と同様である.

ExponentialFamilyIncludeConstantBasisLinearOffsetFunctionLinkFunctionNominalVariablesWeightsはすべてモデル構造および最適化基準のある部分を定義し,GeneralizedLinearModelFitの内部だけで設定することができる.他のオプションはすべてGeneralizedLinearModelFit内で設定することもできるし,結果と診断を得るときにFittedModelに渡すこともできる.FittedModelオブジェクトの評価において設定されるオプションはフィットの段階でGeneralizedLinearModelFitに与えられている設定より優位になる.

次はガンマモデルにおけるパラメータに95%および99%の信頼区間を与える.
In[24]:=
Click for copyable input
Out[24]=
"BasisFunctions"基底関数のリスト
"BestFit"フィットされた関数
"BestFitParameters"パラメータ推定
"Data"入力データあるいは計画行列と応答ベクトル
"DesignMatrix"モデルに対する計画行列
"Function"最適フィットの純関数
"LinearPredictor"フィットされた線形結合
"Response"入力データにおける応答値

データおよびフィットされた関数に関する特性

は基底関数に対するパラメータ推定を与える.はフィットされた関数 を,は線形結合 を与える.は,定数項がモデルに存在する場合に を定数1とした関数 のリストを与える.は基底関数についての計画行列あるいはモデル行列である.

"Deviances"尤離度
"DevianceTable"尤離度表
"DevianceTableDegreesOfFreedom"表からの自由度の差
"DevianceTableDeviances"表からの尤離度の差
"DevianceTableEntries"表からのフォーマットされていない値の配列
"DevianceTableResidualDegreesOfFreedom"表からの自由度残差
"DevianceTableResidualDeviances"表からの残差の尤離度
"EstimatedDispersion"予測分散パラメータ
"NullDeviance"ヌルモデルの尤離度
"NullDegreesOfFreedom"ヌルモデルの自由度
"ResidualDeviance"フィットしたモデルでの分散と完全モデルでの分散との差分
"ResidualDegreesOfFreedom"モデル自由度とヌル自由度の差

分散とモデルからの逸脱に関連する特性

尤離度と尤離度表は線形モデルの分散分析により与えられるモデルの分解を一般化する.単独のデータ点に対する尤離度はであり,ここで はフィットされたモデルの対数尤度関数である.はすべてのデータ点に対する尤離値のリストを与える.すべての尤離度の総和はモデルの尤離度を与える.モデルの尤離度は,線形モデルで平方和がANOVA表にあるときは分解することができる.この完全モデルでは,予測された値がデータと同じである.

次は2つの予測子変数を持つデータである.
In[31]:=
Click for copyable input
これでデータを逆ガウスモデルにフィットする.
In[32]:=
Click for copyable input
Out[32]=
次はモデルに対する尤離度表である.
In[33]:=
Click for copyable input
Out[33]=

平方和の場合と同じように,尤離度は加法的である.表のDevianceの列で,与えられた基底関数が加えられるとモデルの尤離度が増すことが分かる.Residual Devianceの列はモデルの尤離度と表の中のすべての項を含む部分も出るの尤離度との差分を与える.大きい標本の場合,尤離度の増加は自由度が表の基底関数の自由度に等しい 分布にほぼ従っている.

はヌルモデルの尤離度である.ヌルモデルとは,定数(定数項が含まれないときは)を含むモデルに対して観察されたすべての応答の平均に等しい定数モデルのことである.

の場合と同様に,から列あるいはフォーマットされていない項目の配列を抽出するためのプロパティがたくさん含まれている.

"AnscombeResiduals"アンスコム(Anscombe)残差
"DevianceResiduals"尤離度残差
"FitResiduals"実際の応答と予想された応答の差
"LikelihoodResiduals"尤度残差
"PearsonResiduals"ピアソン(Pearson)残差
"StandardizedDevianceResiduals"標準化された尤離度残差
"StandardizedPearsonResiduals"標準化されたピアソン残差
"WorkingResiduals"作業残差

残差のタイプ

は残差,つまり観察された応答と予測された応答との差分のリストである.分布の仮定があるとき,残差の大きさは予測された応答値の関数として変化するものと想定される.一般化された線形モデルの分析では,スケールされた残差のさまざまなタイプが使われる.

および がそれぞれ尤離度と 番目のデータ点の残差ならば, 番目の尤離残差は で与えられる. 番目のピアソン残差は は指数型分布族の分散関数)と定義される.標準化された尤離度残差と標準化されたピアソン残差には はハット行列の 番目の対角要素)による割算が含まれる.値は尤離度とピアソン残差を組み合せたものである. 番目の尤度残差は で与えられる.

は正規化に向けた残差の変換を提供するため,これらの残差のプロットはホワイトノイズのように粗く見える. 番目のアンスコム残差は と書くことができる.

は反復フィットの最終ステップからの残差である. 番目の作業残差は, で評価された として得られる.

次で逆ガウスモデルに対する残差とアンスコム残差をプロットする.
In[41]:=
Click for copyable input
Out[41]=
"CorrelationMatrix"漸近的なパラメータ相関行列
"CovarianceMatrix"漸近的なパラメータ共分散行列
"ParameterConfidenceIntervals"パラメータの信頼区間
"ParameterConfidenceIntervalTable"フィットされたパラメータの信頼区間情報の表
"ParameterConfidenceIntervalTableEntries"表からのフォーマットされていない値の配列
"ParameterConfidenceRegion"楕円体パラメータ信頼領域
"ParameterTableEntries"表からのフォーマットされていない値の配列
"ParameterErrors"予測パラメータの標準誤差
"ParameterPValues"パラメータ 統計の
"ParameterTable"フィットされたパラメータ情報の表
"ParameterZStatistics"パラメータ推定の 統計

パラメータ推定の特性と診断

はフィットされたパラメータ間の共分散を与え,線形モデルの定義に非常に類似している.CovarianceEstimatorFunction->"ExpectedInformation"の設定では,反復フィットにより得られる想定された情報行列が使われる.この行列は phi^^TemplateBox[{{(, X}}, Transpose]W X)^(-1) であり, は計画行列, はフィットの最終段階からの重みの対角行列である.重みにはWeightsオプションで指定された重みおよび分布の分散関数に関連付けられた重みが含まれる.CovarianceEstimatorFunction->"ObservedInformation"と設定すると,この行列は により与えられる.ここで はそのモデルのパラメータについて対数尤度関数のヘッシアンである,観察されたフィッシャー(Fisher)情報行列である.

はパラメータ推定に対して関連付けられた共分散行列である.は共分散行列の対角要素の平方根と等価である.およびには個々のパラメータ推定,パラメータ有意度の検定,信頼区間に関する情報が含まれる.一般化された線形モデルの検定統計量は漸近的に正規分布に従う.

"CookDistances"クック(Cook)の距離のリスト
"HatDiagonal"ハット行列の対角要素

影響尺度関連特性

およびはその影響力の測定を線形回帰から一般化された線形モデルへと拡張する.対角要素が抽出されたハット行列は,反復フィットの最終的な重みを使って定義される.

影響力のクック距離は,線形回帰と同様であるが標準化された残差を標準化されたピアソン残差で置き換えることで定義される. 番目のクック距離は 番目の標準化されたピアソン残差)で与えられる.

"PredictedResponse"データに対してフィットされた値

予測値特性

"AdjustedLikelihoodRatioIndex"BenAkivaとLermanの修正尤度比指数
"AIC"赤池情報量基準
"BIC"ベイズ(Bayes)情報量基準
"CoxSnellPseudoRSquared"CoxとSnellの擬似
"CraggUhlerPseudoRSquared"CraggとUhlerの擬似
"EfronPseudoRSquared"Efronの擬似
"LikelihoodRatioIndex"McFaddenの尤度比指数
"LikelihoodRatioStatistic"尤度比
"LogLikelihood"フィットされたモデルのための対数尤度
"PearsonChiSquare"ピアソンの 統計

適合度尺度の特性

はフィットされたモデルに対する対数尤度である.およびは罰則付き対数尤度 である.ここで はフィットされたモデルに対する対数尤度, は分散パラメータを含む推定されるパラメータ数, 個のデータ点のモデルにおいてでは2では である.により与えられ,はヌルモデルの対数尤度を表す.

多数の適合度の尺度では,線形回帰の を説明されたバリエーションの尺度あるいは尤度ベースの尺度として一般化する. により与えられる.はCoxとSnellの尺度 をスケールしたものである.には対数尤度の比が関わっており,はパラメータの数で罰則が付いて適合する.の平方和の解釈を使い,(ここで 番目の残差, は応答 の平均である)として与えられる.

はピアソン残差)と等価である.

非線形モデル

非線形の最小二乗モデルは線形モデルの拡張であり,ここではモデルは基底関数の線形結合である必要はない.誤差は独立であると想定され,正規分布に従う.このタイプのモデルはNonlinearModelFit関数を使ってフィットすることができる.

NonlinearModelFit[{y1,y2,},form,{β1,},x]パラメータ ,単独のパラメータ予測子変数 x の関数 form の非線形モデルを得る
NonlinearModelFit[{{x11,,y1},{x21,,y2}},form,{β1,},{x1,}]複数の予測子変数 の関数として非線形モデルを得る
NonlinearModelFit[data,{form,cons},{β1,},{x1,}]制約条件 cons に従う非線形モデルを得る

非線形モデルのフィット

非線形モデルの形式は であり,ここで はフィットされた,あるいは予測された値, はフィットされるパラメータ, は予測子変数である.他の非線形最適化問題すべてでそうであるように,パラメータの初期値によい値を選ぶことが大切である.初期値はFindFitと同じパラメータ指定を使って与えることができる.

次は非線形モデルを平方根の数列にフィットする.
In[25]:=
Click for copyable input
Out[25]=

モデルフィットおよびモデル分析のオプションが利用できる.

オプション名
デフォルト値
AccuracyGoalAutomatic目標確度の桁数
ConfidenceLevel95/100パラメータと予測の信頼性のレベル
EvaluationMonitorNoneexpr が評価されるたびに評価する式
MaxIterationsAutomatic使用する最大反復回数
MethodAutomatic使用するメソッド
PrecisionGoalAutomatic目標精度
StepMonitorNoneステップが取られるたびに評価される式
VarianceEstimatorFunctionAutomatic誤差分散を推定するための値または関数
WeightsAutomaticデータ要素の重み
WorkingPrecisionAutomatic内部計算で使われる精度

NonlinearModelFitで使用可能なオプション

AccuracyGoalMethodWorkingPrecision等の一般的な数値オプションはFindFitの場合と同じである.

Weightsオプションは重み付きの非線形回帰に対する重みの値を指定する.最適なフィットは重み付き誤差平方和に対するものである.

他のオプションはすべて初期フィットの後の結果の計算に関連し得る.これらのオプションは,フィットで使用するためにNonlinearModelFit内で設定することも,FittedModelオブジェクトから得られた結果に対するデフォルト設定を指定するため設定することもできる.これらのオプションはすでに構築されたFittedModelオブジェクト内で設定して,はじめにNonlinearModelFitに与えられたオプション値をオーバーライドすることもできる.

"BestFit"フィットされた関数
"BestFitParameters"パラメータの推定
"Data"入力データ
"Function"最もよくフィットした純関数
"Response"入力データの応答値

データとフィットされた関数に関連する特性

非線形モデルのデータおよびフィットされた関数の基本的な特性は線形および一般化された線形モデルでの同じ特性と同様に動作する.例外はFindFitの結果に対して行われるような規則を返すという点である.

次はパラメータ推定に対してフィットされた関数と規則を返す.
In[26]:=
Click for copyable input
Out[26]=

非線形モデルに対する診断の多くは,線形回帰の概念を拡張あるいは一般化する.これらの拡張は線形近似,または大規模な標本近似に依存することが多い.

"FitResiduals"実際の応答と予想された応答の差
"StandardizedResiduals"各余剰について標準誤差で割った余剰のフィット
"StudentizedResiduals"単一の削除誤差推定で割った剰余のフィット

残差のタイプ

線形回帰の場合と同様に,は観察された値とフィットされた値との間の差分を与える.はこれらの差分をスケールした形式である.

標準化された 番目の残差はである.ここで は推定誤差分散, はハット行列の 番目の対角要素, 番目のデータ点に対する重み,スチューデント化された 番目の残差は 番目の単独削除変数 で置き換えて得られる.非線形モデルの場合は,計画行列に対して一次近似が使われるが,これはハット行列を計算するのに必要なのである.

"ANOVATable"分散分析表
"ANOVATableDegreesOfFreedom"ANOVA表からの自由度
"ANOVATableEntries"表からのフォーマットされていない配列の値
"ANOVATableMeanSquares"表からの平方平均誤差
"ANOVATableSumsOfSquares"表からの平方和
"EstimatedVariance"誤差分散の推定

平方誤差の総和に関連した特性

はフィットされた関数および誤差・残差のデータ属性における分散の分解を提供する.

以下は非線形モデルに対するANOVA表を与える.
In[27]:=
Click for copyable input
Out[27]=

補正されない総平方和は平方和の応答を与え,補正された総平方和は応答とその平均値との差分の平方和を与える.

"CorrelationMatrix"漸近的なパラメータ相関行列
"CovarianceMatrix"漸近的なパラメータ共分散行列
"ParameterBias"パラメータ推定の推定の偏り
"ParameterConfidenceIntervals"パラメータの信頼区間
"ParameterConfidenceIntervalTable"フィットされたパラメータの信頼区間情報の表
"ParameterConfidenceIntervalTableEntries"表からのフォーマットされていない値の配列
"ParameterConfidenceRegion"楕円体パラメータ信頼領域
"ParameterErrors"予測パラメータの標準誤差
"ParameterPValues"パラメータ 統計の
"ParameterTable"フィットされたパラメータ情報の表
"ParameterTableEntries"表からのフォーマットされていない値の配列
"ParameterTStatistics"パラメータ推定の 統計

パラメータ推定の特性と診断

はフィットされたパラメータ間の近似共分散を与える.この行列は sigma^^^2TemplateBox[{{(, X}}, Transpose]W X)^(-1)であり,ここで は分散推定, はモデルに対する線形近似の計画行列, は重みの対角行列である.はパラメータ推定値に対して関連付けられた相関行列である.は共分散行列の対角要素の平方根と等価である.

およびには,誤差推定を使って得られた個々のパラメータ推定値,パラメータ有意性の検定,信頼区間についての情報が含まれる.

"CurvatureConfidenceRegion"曲率診断の信頼区間
"FitCurvatureTable"曲率診断表
"FitCurvatureTableEntries"表からのフォーマットされていない値の配列
"MaxIntrinsicCurvature"最大内部曲率尺度
"MaxParameterEffectsCurvature"パラメータ効果曲率の尺度

曲率診断特性

多くの診断で使われる一次近似はモデルがパラメータで線形であることに等しい.パラメータ推定付近のパラメータ空間が十分平坦な場合,線形近似および一次近似に依存するあらゆる結果は有効であるとみなされる.近似による線形性が有効であるかどうかを評価するために曲率診断が使われる.は曲率診断の表である.

およびは最もよくフィットしたパラメータ値におけるパラメータ空間の法曲率および正接曲率をスケールした尺度である.は最もよくフィットしたパラメータ値におけるパラメータ空間の曲率半径をスケールした尺度である.法曲率と正接曲率がの値に対して小さい場合,線形近似が妥当であるとみなされる.経験則にはその値を直接比較することを勧めるものもあれば,の半分と比較することを勧めるものもある.

次は非線形モデルに対する曲率表である.
In[28]:=
Click for copyable input
Out[28]=
"HatDiagonal"ハット行列の対角要素
"SingleDeletionVariances" 番目のデータ点を除いた変動推定のリスト

影響尺度関連特性

ハット行列は となるような行列 である.ここで は観察された応答, は予測された応答ベクトルである.はハット行列の診断的要素を与える.他の特性と同様に, はモデルへの線形近似に計画行列を使う.

番目の要素はに等しい.ここで はデータ点の数, はパラメータの数, 番目のハット対角, はデータ全体の分散推定, 番目の残差である.

"MeanPredictionBands"平均予測の信頼帯
"MeanPredictionConfidenceIntervals"平均予測の信頼区間
"MeanPredictionConfidenceIntervalTable"平均予測の信頼区間表
"MeanPredictionConfidenceIntervalTableEntries"表からのフォーマットされていない値の配列
"MeanPredictionErrors"平均予測の標準誤差
"PredictedResponse"データのフィットされた値
"SinglePredictionBands"1回の観察に基づいた信頼帯
"SinglePredictionConfidenceIntervals"1回の観察の予想される応答の信頼区間
"SinglePredictionConfidenceIntervalTable"1回の観察の予想される応答の信頼区間の表
"SinglePredictionConfidenceIntervalTableEntries"表からのフォーマットされていない値の配列
"SinglePredictionErrors"1回の観察の予測応答の標準誤差

予測値関連特性

信頼区間に対する表の結果はおよびで与えられる.これらの結果は線形モデルの場合にLinearModelFitで得られる結果と同じである.ここでも計画行列に一次近似が使われる.

およびは予測子変数の関数を与える.

以下でフィットされた関数と平均予測の信頼帯が得られる.
In[29]:=
Click for copyable input
Out[29]=
以下はフィットされた曲線と信頼帯をプロットしたものである.
In[30]:=
Click for copyable input
Out[30]=
"AdjustedRSquared"モデルパラメータの数に適応された
"AIC"赤池情報量基準
"BIC"ベイズ(Bayes)情報量基準
"RSquared"決定係数

適合度尺度の特性

は,線形モデルに対して定義されているように,すべて尺度を直接拡張したものである.決定係数 であり,は平方和の残差, は未補正の全平方和である.非線形モデルでは,決定係数は線形モデルでそうであるような,説明された分散の割合と同じ解釈は持たない.それは,モデルに対する平方和と残差に対する平方和が必ずしも全平方和にはならないからである.はモデルのパラメータ数について罰則が付き,により与えられる.

およびはモデルに対する対数尤度の倍に を足したものに等しい.ここで は推定された分散を含む,推定されるパラメータ数である.では では である.