88.3.1 統計的な概要 (statistical overview)

非線形最小自乗法 (Non-Linear Least-Squares) の理論は、誤差の正規分布の点から一般的に記述されています。すなわち、入力データは与えられた平均とその平均に対する与えられた標準偏差を持つガウス (正規) 分布に従う母集団からの標本と仮定されます。十分大きい標本、そして母集団の標準偏差を知ることに対しては、χ自乗分布統計を用いて、通常「χ自乗」と呼ばれる値を調べることにより「当てはめの良さ」を述べることができます。減らされた自由度のχ自乗 (χ自乗の自由度は、データ点の数から当てはめられるパラメータの個数だけ引いた数) が 1.0 である場合は、データ点と当てはめられた関数との偏差の重みつき自乗和が、現在のパラメータ値に対する関数と与えられた標準偏差によって特徴付けられた母集団の、ランダムなサンプルに対する自乗和とが全く同じであることを意味します。

分散 = 総計である数え上げ統計学同様、母集団の標準偏差が定数でない場合、各点は観測される偏差の和と期待される偏差の和を比較するときに個別に重みづけされるべきです。

最終段階で fit は 'stdfit'、すなわち残差の RMS (自乗平均平方根) で求められる当てはめの標準偏差と、データ点が重みづけられている場合に '減らされたχ自乗' とも呼ばれる残差の分散をレポートします。自由度 (データ点の数から当てはめパラメータの数を引いたもの) はこれらの評価で使用されます。なぜなら、データ点の残差の計算で使われるパラメータは同じデータから得られるものだからです。データ点が重みを持つ場合、gnuplot はいわゆる p-値を計算します。それはその自由度と結果のχ自乗値に対するχ自乗分布の累積分布関数値を 1 から引いた値です。以下参照: fit practical_guidelines (88.3.2)。これらの値は以下の変数に代入されます:

     FIT_NDF = 自由度の数
     FIT_WSSR = 重みつき残差の自乗和
     FIT_STDFIT = sqrt(WSSR/NDF)
     FIT_P = p-値

パラメータに関する信頼レベルを評価することで、当てはめから得られる最小のχ自乗と、要求する信頼レベルのχ自乗の値を決定するためのχ自乗の統計を用いることが出来ます。しかし、そのような値を生成するパラメータの組を決定するには、相当のさらなる計算が必要となるでしょう。

fit は信頼区間の決定よりむしろ、最後の反復後の分散-共分散行列から直ちに得られるパラメータの誤差評価を報告します。これらの評価は、標準偏差として計算される量の指定に関する統計上の条件が、一般には非線形最小自乗問題では保証されないのですが、線形最小自乗問題での標準誤差 (各パラメータの標準偏差) と同じ方法で計算されます。そしてそのため慣例により、これらは "標準誤差" とか "漸近標準誤差" と呼ばれています。漸近標準誤差は一般に楽観過ぎ、信頼レベルの決定には使うべきではありませんが、定性的な指標としては役に立つでしょう。

最終的な解は、解の範囲におけるパラメータの相関を示す相関行列も生成します: その主対角要素、すなわち自己相関は常に 1 で、全てのパラメータが独立ならば非対角要素はすべて 0 に近い値になります。完全に他を補いあう 2 つの変数は、大きさが 1 で、関係が正の相関か負の相関かによって正か負になる符号を持つ非対角要素を持ちます。非対角要素の大きさが小さいほど、各パラメータの標準偏差の評価は、漸近標準誤差に近くなります。

竹野茂治＠新潟工科大学
2024-02-16