SOLUTION
検査室支援情報
精度管理の考え方
Q8 Answer
ルチン用と緊急用の2つの装置が稼動しています。これらの装置で、同じ検体なら同じ結果が得られることの確認をとりたいと考えています。そこで、まず3種類の異なる濃度の検体を準備しそれぞれの装置でそれらをランダマイズして測定して、得られたデータを検定し、有意な差がないことを確認しようと考えました。この場合、それぞれの濃度の検体についてt検定で有意な差がないとする結果が出ても、測定回数が少ないことが原因ならば検討の意味がありません。このような検討に必要な測定回数をどう考えればよいか教えてください。 (和歌山県 Q次郎様)
関連のある2群についてのt検定は、標本サイズをnとすると、差の平均値を標準化したものが自由度n-1のt分布に従うことを利用し、標本から計算で求めたtの値を任意の有意水準に対するt分布表の値と比較して、それより大きければ2群間に差があると判定するもので、ご質問でご指摘の通り標本サイズが小さい(=自由度が小さい)場合はt分布の両裾が広くなるため、t検定の差の検出力は低くなります。
ただし、これは存在する差が統計的に有意であるといえるかどうかについてのことであり、ご質問の本題であるルーチン用分析装置と緊急用分析装置のデータに差があるかどうかを数理統計学的に証明しようとする検討には、違う観点からの考察も必要です。
1つの項目に対して2台の分析装置を使っている場合や新しい試薬キットを検討しようとするときのように、1つの検体群を準備し、それぞれから測定値として得られた2つの標本に対して、その平均値の比較を行い、そこに差があるかないかを判断するというのは、検査室にとっては日常的な問題といえるでしょう。
ところで、2つの標本に関して、対応のあるものと対応のないものとでは、検討すべき論点が異なります。ご質問は、2台の分析装置AとBのそれぞれで、同一検体を測定した結果得られた「対応のある」標本であることを留意しておいて下さい。
概して言えば、相関がある2つの観測値は対応があると考えます。今回のご質問でも、同じ検査項目を測定している限り分析装置AとBの測定値には相関があるはずで、観測値は「対応のある標本」です。同一項目に対して、測定原理の異なる2つの測定方法を検討する場合も同じことになります。
説明文を短くするために記号と数式を最小限使うことにして、分析装置Aの測定値をxAi、分析装置BのそれをxBiとします。添え字iは、i番目のということです。
問題では、両者に差がないことを議論しようとしているので、両者の差を仮にdとすれば、i番目の測定値の差であるdiは次のように表すことができます。
di = xAi - xBi ..... 式(1)
両分析装置に差がないとすれば、di = 0を予想することになります。
xAiとxBiが同じ母集団から対応をもって選ばれた標本であるなら、di = 0になるはずです。
そこで、diに視点をとることにして、その母集団を考えてみることにします。
diは、母平均m = 0、母分散σ2の正規母集団を想定します。母分散σ2が、未知か既知か今議論しないことにしておきます。
上の問題に答えようとすることは、一つの作業仮説(H0)に対して数理統計学的に答えることに他なりません。そこで、その作業仮説を検討してみることにします。
- 帰無仮説 H0:di = xAi -xBi = 0 対立仮説 H1: di = xAi -xBi≠ 0
帰無仮説に従えば、標本diは、想定した母平均m = 0、母分散σ2の正規母集団から、無作為に大きさNの標本d1,d2,・・・・,dNとして取りだしたもので、その標本平均と標本分散は次のように表すことができます。
- 標本平均
- ..... 式(2)
- 標本分散
- ..... 式(3)
- ここで、t0を次式で与えることにすると
- ..... 式(4)
- t0は自由度f = N - 1のt分布に従います。
そこで、m = 0として、式(4)の値を計算し、自由度f = N - 1のt分布表で両側危険率が0.05の値と比較すれば、標本が正規母集団からとり出されたものかどうかが5%の危険率で検定できます。すなわち、t分布表で与えられた数値より計算値の絶対値が大きければ、そうした標本が得られる可能性が5%以下であると数理統計学的に言えるということで、言い換えると、
「この標本は母平均mの正規母集団から得られた確率標本である」とする帰無仮説は棄却してよい、つまり2群には差があると言わざるを得ません。
ここまでは、WEBテキスト本文に解説があることの繰り返しです。
上で適用した「t分布表で両側危険率が0.05を示す値」は、有意水準α= 0.05とも言い、「第1種の過誤」と呼ばれる危険を避けるために選ばれたものです。
第1種の過誤とは、「正しい帰無仮説を誤って棄却する確率」のことを意味しています。α= 0.05の意味は、立てた仮説で言う事象が起きる確率は高々5%である、と宣言することであり、もし、観測値を使った計算で得られた値(t0値)がt分布における上側αパーセント点の値(t値)より大きければ、そのようなことが起きるのは5%の確率にも満たない、という解釈をします。これは、そのような事象がたまたま起こったと考えるよりは、帰無仮説が間違っていたと考える方が妥当である、よって仮説は棄却した方がよい、ということです。
第1種の過誤の考え方に対して、「正しくない帰無仮説を誤って採択してしまう」という見方ができます。同じようにやってはならないことを指しているのですが、ものの裏側から見ていることになります。この間違いは、「第2種の過誤」と呼ばれます。ここでいう正しくない帰無仮説とは対立仮説H1を意味しています。一般に、第2種の過誤を犯す確率は、危険率βで表します。
しばしば、βに代えて1-βがよく用いられます。1-βの解釈は、正しい対立仮説を正しく採択する確率ということになります。この[1-β]は検出力と呼ばれることもあります。
ではここで、対立仮説をもう一度見直してみましょう。
対立仮説 H1: di = xAi - xBi≠0
di ≠0というのは、xAi > xBiもしくはxAi < xBiを意味しており、片側検定ならそのいずれかの条件を指すことになります。
しかし、これだけでは大小の関係を言うだけで、どれほどの差を「有意の差」と言うのかが明確ではありません。
そこで、改めて2台の分析装置による測定値について、それらが同一の値を与えないものと考え直してみることにして、この「差」について考えてみましょう。
2台の分析装置による測定値の比較を、式(4)を使って行う場合、了解事項として前提されていたことがあります。それは2台の分析装置のバラツキは等しいということです。2台の分析装置から得られた測定値についてその平均値を比較するとき、t分布、あるいは、F分布をモデルとする場合には両分布の等分散性が了解事項です。
2台の分析装置から得られた測定値に見られる差を直接計算に使って検定したのでは、たとえ分析装置に等分散性を認めてもバラツキの大きな項目と、バラツキの小さな項目では「差がある」とする判定結果が異なってしまいます。
つまり、バラツキのある2つの観測値について、その差を問題として扱うときには、そのバラツキで除した値で検定を行う必要があるのです。
そこで、dをδ と書き改めて定義しなおすことにすると、
..... 式(5)
式(5)のように改めてもゼロの検定に関わった有意差αについてはxAi = xBiならばδ =d=0ですから、上で考えたのと同じです。
問題は、δ ≠0の条件が式(4)において、分子がゼロではない分布を考えなければならないことです。
δ ≠0の場合におけるt0の分布は、非心t分布(non-central t-distribution)といいます。分布曲線は左右対称ではなく、ややゆがんだ形状をしています。これをT'として図で示し、αとβの関係を見てみましょう。
上の図において分布Tはdi = xAi - xBi = 0の場合の確率分布、
T'はdi = xAi - xBi≠ 0 の場合の確率分布を表します。
図からβを小さくしようとすれば、αが大きくなり、その反対も同様であることが明らかです。また、もちろん標本サイズが変われば分布の裾の広がりが変化し、分布TとT'が重なる部分の面積も変化します。2つの観測値の差δは分布TとT'の距離で、これもαとβに関係があります。
つまり、2群の差を検出するために必要なサンプルサイズNは、αとβ(もしくは1-β)、および検出したい基準、つまり2つの差δによって決定されるものです。
一般的な検定基準として、α=0.05、β=0.10とした場合、2群の差を検出するのに必要な標本サイズは、分析装置の持つバラツキの大きさσの倍数で表現すると付表のようになります。検出しようとする2群の差が2σ(標準偏差の2倍)なら、必要な繰り返し回数は5回、1.5σなら10回の繰り返しが必要となります。σと同程度の差を検出しようとするなら20回程度でよいのですが、それ以上の繰り返し測定を行っても、余り効果が出ないことにも留意して下さい。一般的には同じ試料について10~20回繰り返し測定を行えば十分と考えられます。
ところでβ=0.10というのは、100回の検定作業で10回は見逃しを犯す危険があるということです。このときの検出力1-βは、0.90と表現されます。
大切なことは、第1種の過誤に対する危険率と第2種の過誤に対する危険率、および2つの測定値にどれほどの差があれば、2つの測定値は異なると判断するのかを決めれば、実験を行う前に何回繰り返し測定をすればよいかを予め決定できるということを理解することです。そうすれば、無駄な試料を準備することや、むやみに繰り返し回数を増やして測定することもなく、有効な実験で日常に利用する測定法がどのような性能を持っているか正しく認識することができます。
ところで、2台の分析装置による測定値を比較するために、準備する試料を仮に3濃度とした場合、P1,P2,P3がその検討に使う元の試料であるとすると、これをそれぞれについてn回反復測定するためn本に分注することで
P11,P12,・・・・P1n;P21,P22,・・・・P2n;P31,P32,・・・・P3n
という検体列が作られ、それぞれについて、分析装置AとBによる測定値が得られることになります。検定を行うにあたっては分析装置AとBの対応する測定値から統計量を計算しなければならないことにも注意して下さい。
蛇足ですが、実際の測定においては、上に書いたような順序通りに測定されるのではなく、検体列はランダマイズして実施しなければなりません。ランダマイズについてはすでにQ&AのQ7で解説がされていますので、そちらを参照して下さい。
日常検査の性能評価をすることはとても大切な仕事のひとつです。しかし、本来の仕事である臨床検査のための測定ではないので、できるだけ効率よく実験して、無駄な経費や時間、労力が消耗されないように計画することは、経営面でも正しい姿勢といえるでしょう。
付表: 繰り返し測定回数(n)とそれに応じて検出できると予測される有意差(δ)を標準偏差の倍数で示した表: 第1種の過誤を犯す危険率α=0.05のもとで、第2種の過誤を犯す危険率β=0.10とする
n | δ |
2 | 6.800 |
3 | 3.593 |
4 | 2.765 |
5 | 2.346 |
6 | 2.078 |
7 | 1.892 |
8 | 1.745 |
9 | 1.631 |
10 | 1.534 |
11 | 1.454 |
12 | 1.386 |
13 | 1.326 |
14 | 1.274 |
15 | 1.227 |
16 | 1.184 |
17 | 1.147 |
18 | 1.113 |
19 | 1.081 |
20 | 1.052 |
21 | 1.025 |
22 | 1.000 |
23 | 0.978 |
24 | 0.957 |
25 | 0.937 |
80 | 0.517 |
90 | 0.487 |
100 | 0.462 |
- 参考資料:増山元三郎著 岩波全書「実験計画法」第2版 1972年
- 増山元三郎著 岩波新書 デタラメの世界 1971年
篠倉 潔
(NTT西日本大阪病院 臨床検査科)
2004年5月24日