SOLUTION

検査室支援情報

精度管理の考え方中 恵一

(付録) 回帰分析

補遺-1 回帰分析の落とし穴

回帰分析の問題において、回帰係数の母数を推定しt分布を応用して実際の観測値の検定を行う場合、計算上の落とし穴に留意しなければならない。その一つを記す。

回帰分析において扱われるデータ群、(x1,y1) (x2,y2) ・・・ (xN,yN) は任意の標本群である。ここに大変よくそろった2つの測定系で計測を行った結果、たった一つのペアデータだけが数値の違いがあるような例を想定する。
たとえば、(10,10);(50,50);(80,76)のようなケースである。
このとき、1次回帰係数の検定は母数の推定を行うに際して、次の値がt分布をする値として利用されることをすでに示した。
 ・・・(52)

通常検定の興味は、Y=Xという理想状況を考え、0=1を検定条件とする。
ここで、

を、この右辺に用いると、次のように書き改めることができる。

分母分子を二乗すれば次の式が得られる。
 ・・・(70)

(x1,y1) (x2,y2) ・・・ (xN,yN) は任意の標本群であったので、そのうち最後のひとつのペアだけに数値の違いが見られたものと仮定する。すなわち、食い違いをδとして、
 ・・・(71)
としておこう。
ここで、
 ・・・(72)

 ・・・(73)

 ・・・(74)

であるから、
式(71)の食い違いを当てはめるのは、yが含まれる式(73)と式(74)である。
式(70)の分子には式(74)が現れるので、これから考えることにすると、

となり、
 ・・・(75)
と書き改めることができる。
より簡略化してこれを次のようにあらわすことにする。

として
 ・・・(76)

一方分母には式(73)があるから、これを同様に処理すると、

整理をすれば、

式(76)を用いて書き直すと次のようになる。
 ・・・(77)

式(70)の分子を改めて書き直すことにする。
 ・・・(78)
したがって、
 ・・・(79)

また式(70)の分母は、

t検定に関わる式(70)を式(79)と式(80)で書き改める。

・・・(81)

結果的に、式(52)は式(81)で見れば分かるように、δには無関係になってしまう。
つまり、ペアのデータが一組を除いてすべて同じ値、もしくはある定数倍で一致しているとき、検定に当てる式(52)のt値はその食い違うデータのペアの差にはまったく係わりがない。例で挙げた(10,10);(50,50);(80,76)の第3組でyの値が76でなくとも、このペアが(80,7)でも(80,7000)でも回帰係数bのt検定に持ち込む式(52)の推定値は同じ値に計算される。

これは0次回帰係数、定数項のについても同じ結果になる。続いてこれを示すことにしよう。
式(68)での検定に用いるt値は次のように示された。
 ・・・(68)

式(68)に含まれる次の部分に着目する。
 ・・・(82)

式(82)の分子分母を二乗して次の式を得る。
 ・・・(83)

ここで、一般には回帰直線が原点を通ること、すなわちa0=0を期待しているのでこれを当てはめて、

を用いると、
 ・・・(84)

そこで、式(83)の分子は次のように書き直すことができる。

 ・・・(85)
ここで、
 ・・・(86)
と書き直すことができる。

先と同様に、標本群の最後のひとつのペアだけに数値の食い違いが見られると仮定すれば、
 ・・・(71)
を使って、式(86)は次のように改められる。
 ・・・(87)
整理すると、

 ・・・(88)

回帰係数bを扱ったときの分子から、次の式(78)を利用すると、
 ・・・(78)
式(88)は、次のようになる。
 ・・・(89)

これを式(85)に当てはめ、式(83)の分子を求めると
 ・・・(90)

次に式(83)の分母について整理しよう。
 ・・・(91)

カッコのなかの式については、すでに回帰係数bのときに整理が済んでいる。その式(80)をそのまま利用すればよい。そこで式(91)は、
 ・・・(92)

結果的にの検定に用いるt値に関わる式(82)の二乗である式(83)は式(90)と式(92)で次のように書き改められる。

 ・・・(93)

ちょっと複雑な式になっているが、肝心な点はペアのデータの食い違いとして設定したδが打ち消されて式に含まれないことである。すなわち、1次回帰係数bと同様このようなケースでは定数項aについてもデータの差は検定にまったく反映されない。換言すればたった一組だけのペアのデータがどれだけ食い違っても検定結果の信頼性に関する数値を見ている限りでは、それをまったく知りえないということである。

式(52)や式(68)で示されるt分布に持ち込む検定のための値を示す式は、母数を推定する式を組み合わせたもので複雑な形をしているが、ここに例示したようにある性格を持った標本群ではまったく検定に対して無力である。途中の経過においてすべてデータを当てはめて計算して行くともっともらしい数値が出てくるが、まとめたときの最終結果は上に示したようにまったく役に立たないものになる危険がある。

ここではややこしい計算処理過程を数式ですべて示し、読み通すには難渋するものであっただろうが、一方で数式の遊びに楽しみを覚える人にとっては、こうした特殊な例を発見することが一種のゲームとして映るかもしれない。そのような人の指摘を大いに期待する。