How to | フィットしたモデルの診断をプロットする方法
診断はデータのモデルを分析する際に重要である.残差プロットおよびてこ比つまり影響力の統計量プロットは,モデルに対する仮定が妥当であるかどうか,およびデータ点の中でフィットに影響を及ぼしすぎるものがあるかどうかについての貴重な情報を提供する.Mathematica ではこのようなタイプのグラフィックスはLinearModelFit等の関数を組込みのプロット作成関数と一緒に使って得た結果から作成することができる.
まず使用するデータ集合を定義する:
線形モデルは推定しなくてはならないパラメータについて線形であるモデルである.形式
のモデルは
では二次だが,パラメータ
,
,
では線形である.
LinearModelFitを使ってこのモデルにフィットさせる:
| Out[2]= |  |
関数
に対してPlot を使ってフィットした曲線をプロットすることができるように,FittedModelオブジェクトを
の値について評価することができる.
フィットした関数をプロットする:
| Out[3]= |  |
ListPlotを使ってデータをプロットし,Showを使ってフィットした曲線に沿ってデータを表示することができる:
| Out[4]= |  |
FittedModelオブジェクトに多くの診断と結果を返させることができる.
線形モデルについて残差は,ホワイトノイズのように,平均が0で定数分散であるランダムに正規分布した値であるはずである.残差中の任意傾向はモデルを修正する必要があることを示す場合がある.
の特性をFittedModelオブジェクト(
)と一緒に使って残差を得て,それぞれのデータ点についてその残差をプロットする:
| Out[5]= |  |
その他のグラフィックスと同様に,枠,ラベル,充填等の機能を加えるオプションを追加することができる.
Frameオプションを使って残差プロットの周りに枠を加え,Fillingオプションを使って点から軸に向かって線を引く:
| Out[6]= |  |
標準化残差は,残差中の全体的な尺度を実質的に削除するので便利である場合もある.線形と非線形の回帰の場合には,標準化残差は分散が1に等しいホワイトノイズのようになるはずである.
フィットした線形モデルについて標準化残差のプロットを生成する:
| Out[7]= |  |
先の残差プロットは各データ点の残差を表示するが,各データ点は予測変数に対する残差をプロットする場合にも便利である.以下の例では
が予測変数である.
データの値と関連する残差からペアを作成することによって,予測変数に対する残差をプロットすることができる.予測値は
における各データ点の第1要素である:
| Out[8]= |  |
の値と残差のペアをTransposeを使って構築し,その後そのペアをListPlotを使ってプロットする:
| Out[9]= |  |
枠,ステム,ラベルをプロットに加える:
| Out[10]= |  |
同様に,個々の点がフィットに影響し過ぎるかどうかを判断するために,データ集合内の点の影響力つまりてこ比の統計量をプロットすることができる.
例えば,各データ点についてクック(Cook)距離をプロットする.データ点のクック距離は全体のフィットに対してその点の影響力の統計量を提供する:
| Out[11]= |  |
その他の点別の診断には
および
が含まれる.これらはそれぞれよくDFFITSおよびDFBETASとして参照される.これらの値はその他のタイプの影響力を判断するために可視化することができる.
をプロットすることによって,予測値に対する各点の影響力の統計量を得る:
| Out[12]= |  |
診断プロットは,NonlinearModelFit,GeneralizedLinearModelFit,LogitModelFit,ProbitModelFitを使ってフィットした非線形モデルおよび一般線形モデルについても同じような方法で得ることができる.
線形モデルについて使用したものと同じ値を今度は非線形と一般線形のフィットに使う:
例えば,ExpをNonlinearModelFitと一緒に使い,データに指数モデルをフィットさせる:
| Out[14]= |  |
もう一度ListPlotおよびPlotを使ってフィットを可視化させることができる:
| Out[15]= |  |
線形の例と同様に,残差等の点別の診断をListPlotを使ってプロットすることもできる:
| Out[16]= |  |
次の例では形式
のモデルをフィットさせるが,応答(データ中の
の値)は逆ガウス分布に従うと仮定する.これはGeneralizedLinearModelFitのExponentialFamilyオプションを
に設定することによって指定される:
| Out[17]= |  |
線形や非線形の回帰モデルとは違って,誤差の分散はもはや一定であるとは予測されない.逆ガウスモデルについては,応答値が増加するにつれて誤差も増加すると予想される.
さまざまなタイプの変換残差をこれらのモデルと使用することができる.一度に複数の残差を見たい場合には,まず一緒に見たい残差を指定する:
線形と非線形の回帰の場合と同様に,
は応答と予測値の違いである.
はフィット残差を変換して仮定された分布の正規のノイズに近くなるようにする.
は全体の分散からスケールするのに対し,
は各点における予測分散に基づいてスケールする.
今度は作成しようとしているそれぞれの残差プロットに対するラベルを定義する:
異なるタイプの残差のプロットを作成し,それぞれにラベルを追加する.ここでは出力をセミコロン(
) を使って抑制し,プロットを次のステップで格子で表示する:
Partitionを使って2×2配列を作り,その後GraphicsGridを使って格子でプロットを表示する:
| Out[21]= |  |