SOLUTION

検査室支援情報

精度管理の考え方中 恵一

2. 検査の精度を保証することとは・・・

Aさんの血液を採取して赤血球数を自動計数機で測定しました。このとき、その測定結果が正しい数値だということをどうすれば保証できるのでしょうか?

「正しい」という表現には、程度の問題が含まれています。どれくらい正しい数値なら満足するか、まずそれを知らなければなりません。

ごく一般論としての正しさという表現は通りませんか?

測定された、Aさんの赤血球を数えて得られた結果をどんな目的で利用しようと考えたか、その本来の目的によるでしょう。ごく健康な人が、健康上の不安もなく赤血球数を測定することは考えられません。それに、そうした検査には費用がかかるわけで、その費用をAさんは負担しなければならないのです。

Aさんが赤血球の数を測定したのは、最近しばしば立ちくらみがするというので貧血の状態を調べるために、かかりつけの医師が指示をしたのです。

そうすると、本来の目的としては医療上の必要があって、診断のために検査が行われた、と考えてよく、これは臨床検査本来の目的です。

ところで、赤血球数の測定が行われるのは、このほかにも健康診断を目的とする場合、あるいは、ほかの病気があってその治療を始めたり、Aさんの病気に対して実際治療が行われている経過過程で、治療のための薬による副作用が出ていないか診断するときなどの場合があります。こうしたケースはスクリーニングとよびます。

今回のAさんの場合には診断目的ですから、これに見合った正確さを要求されています。検査ではそれにこたえなければなりません。赤血球数は、通常1マイクロリットル(µl)当たり何百万個あるかという数値で表現されていて、3桁の数値で報告されます。すなわち、健康な成人の男性では400~550と打ち出された報告書を見るでしょう。これは400×104個/µlから550×104個/µlという測定結果を意味しています。ちなみに、成人の女性は男性より赤血球数が一般に少なく、380×104個/µl~500×104個/µlです。

貧血の診断は、赤血球数だけで行われるのではなく、むしろたとえば血液ヘモグロビン量が診断の基本的な基準に使われていますし、貧血を起こした原因としてたとえば体内の鉄の不足などが一般に疑われますから、その検査も同時に行われるはずです。したがって、赤血球数の計測値だけが単独に行われたのでは診断情報として十分ではありません。

つまり、赤血球数を何かの診断に用いる場合、それを支援するほかの検査情報があるのとないのでは、要求される精度も違ってくるはずで、そうした考慮があって、数値の「正しさ」に対する精度上の要求があるでしょう。

一般的な例で正しさへの要求の程度を推測することにしますと、成人の男性では450万個/µl、女性では350万個/µlを下回ると貧血傾向があると診断してよいでしょう。そこで考えられるのは、1マイクロリットル当たり450万個を境界としてそれ以下であれば、赤血球数が低いなと診断されるというように明確な考え方をするとすれば、450という数値が449と区別がつかなければならないか、あるいは、440と区別がつけばよいのか、こんな風に考えてみることができるでしょう。むろんその中間の445と450が区別されなければいかん、と主張する専門医もおられるかもしれません。数値に対する正しさの要求は、こう考えれば明らかなように、その数値情報を利用し、診断したいと考える医師の正しさへのこだわりによって決定されるべきです。

しかし、そうはいっても検査室にとってみると、赤血球計数のような頻用される検査にそれほどの手間暇をかけるわけにはいきません。自動計数装置でテキパキと検査をこなす必要があります。結局、医師の正確さへのこだわりと、検査室側の事情の両方を加味し、さらにその検査が経営に貢献する経済効果も考慮して検査に要求すべき精度を決定しなければいけないでしょう。精度がどれくらいで医療に関わるみんなが満足できるかを議論して、一つの具体的な目標値を出しておくことを精度を含む総合的な品質を保証する考え方の体系において、「設計」と呼んでいます。ここでいう「品質」とは、臨床検査情報に要求される項目のすべてを意味しています。

「設計」には、今話している精度や報告にかかる時間、総経費など一つの検査が行われるに当たって考えなければならないすべての作業に関する設計と、その作業によって検査情報がもたらされることになりますから、その情報の質に対する設計があります。この二つの設計は互いに密接な関係がありますので、同時に議論して結論を得なければなりません。

「一般論としての正しさ」という表現をされたのですが、それを議論するのがこの設計での課題で、通常検査の項目によって要求されている精度、報告までに要する時間など異なってきますから、「正しさの一般論」は技術上の議論ではなく、技術の問題はすべて具体的な目標を設定し、それを議論することになります。

赤血球数の計数では最近の外部精度管理調査でCV2%以下という報告があります。「正しい」数値であるというのを、この2%という数値を当てはめてみて450万個/µlに対する2%は9万個/µlですから、450と報告したときには、真値が441~459の間にある、ということと同じだとするならどうでしょう?

検査室の事情と、検査を利用して診断する医師の要求が2%の誤差範囲内であることに異論がなければ、特に無理のある考え方ではないでしょうから、そうした数値目標を設定するのでもよいでしょう。しかし、この考え方はかなり乱暴です。
今おっしゃったことを、次のように解釈してみましょう。

『450という数値は、真値を推定したとき、その範囲が441~459であるという意味であって、450は中点としての報告値である』

そこで、この仮定的な解釈をふまえて次のことを考えてみてください。

真値が実際に450であって、報告値が445のとき、測定した検査技師に真値は分からないが、それは436~454の範囲に含まれているのでしょう、と報告していることになるので、450は確かに範囲内にあり、はじめから保証を明確にそうしているならこれに対して苦情を言えるものではありません。

この場合、うまく真値がその推定した範囲にあるので問題ではありませんが、たとえば別に真値が440の試料があって、それを同じ誤差の程度で測定すると、報告値が441~459の範囲に入ってくるでしょう。そうすると、結局440の試料と450の試料はひょっとすれば、区別がつかないのではありませんか?

つまり、真値が440のものを測定した結果445だったとすると、さきほどの真値が450を445と報告した例と数値上全く同一で、両者の区別は付きません。

この場合、450は440と区別したい、と考えている医師にとって、役に立つ技術レベルではないということになりますね。

診断時、病的で治療を要するという場合と、治療はまだ始める必要はないだろうという判断は大変重要なことですから、診断に用いる検査の境界値それぞれ反対側にある値が区別できないのでは意味がありません。誤差をたかだか2%におさえようという考え方は、間違っているのでしょうか。

間違っていると言っているのではありません。数値情報として報告値の「正しさ」に対する目標値を設定する際、たとえば、440と450を区別したいと考えたなら、それを達成するための作業に対する設計と、その作業が目標値を達成する基準に合格しているか、ということが問題になりますので、この基準に対しても「設計」が必要なことを再度申し上げなければなりません。今の議論では、現実的な問題として、作業が精度上の目標を達成していることを判断するための作業について、やはり「設計」しておかなければなりません。そのことが重要な鍵となるでしょう。

450と440を区別したいとき、2%の誤差で・・と考え、450は低い方へばらついても、441としか報告されないから、440にならないという意味で区別できるだろうと考えられたようですが、これはかなりずさんな考えです。まず、440という試料も±9という誤差が許されるなら431~449までの範囲に報告される可能性があるので、449と報告されたとき、それが限りなく450に近いということを忘れてはいけません。

改めてお聞きしなければなりませんが、外部精度管理調査で報告されるCV値が2%だから、自分の施設での誤差もこれを越えなければ世間一般並だろうという考え方がずさんなのでしょうか。

ずさん、というのは適切な表現かどうかわかりませんが、CVという表現をもう一度確認してみてから、改めて質の設計にうまく使える数値かどうかを議論してみましょう。

CVは、coefficient of variationの略で、変動係数と訳されています。これは、標準偏差が平均値に対していくらの割合になっているか、パーセント表示をしたものです。分散や変動は標本の単位をもっていますので、2つの標本群に対するバラツキの程度を比較できないので、それぞれの平均値で割って無名数としたのです。

数式化すると視覚的にもわかりやすいので、式で書いてみましょう。

CVの式で、分子に標準偏差がありますのでこれに着目してみましょう。

対象になった測定値は、たった1つでしょうが、それを重複して何回も測定したと考えてください。それらの測定値を標本値として一つの群とし、分布を見てみることにします。

図を用いると、理解が簡単ですので正規分布のグラフを使ってみてみましょう。

図1:正規分布モデルにおける標準偏差

図1:正規分布モデルにおける標準偏差

このような群に対する数理統計学上のモデルは「正規分布」を当てはめるのが通常です。そこで、正規分布モデルを使って、変動係数を誤差として当てはめるとどんな意味があるのか考えることにします。

図を見てわかることは、もし測定値の誤差に標準偏差を当てはめるなら2つの解釈ができるということです。

1つは、正規分布をする群のバラツキの範囲に当てはめて、それが平均値を中心として標準偏差の値で示された範囲というなら、図のブルーで示した中央のことを意味します。これは、正規分布では、たった38.3%の標本を含むだけの範囲です。

2つ目の解釈は、バラツキの範囲が平均値を中央として高値と低値のそれぞれに標準偏差だけ広げたところまでを示す場合です。これは、先に450という測定値に対して±2%を考えたとき、単純に±9としたことと同じです。したがって、441~459という範囲が区間推定値として代用されました。この場合には、正規分布モデルで、群にある標本の68.3%を含んでいます。

高い値の端にある15.9%の測定値は、今の判断に当てはめると報告から切り捨てられるという意味で、その範囲に図で黄色をつけておきました。切り捨てられるというのは、この検体試料を測定して得られた測定値のうち平均値より高い値を示した測定値のうち15.9%は、この試料を測定したものではないと、測定者が否定する範囲です。低値と高値両方を合わせると、切り捨てられる測定値は全体の31.7%になります。

もう一度言葉を換えて言い直しますと、平均値を真値として、測定値が真値から高値と低値にそれぞれ標準偏差の範囲内にある場合に限り合格であると判断基準を設けたなら、真値が450という試料を100回測定したとき、441~449の範囲なら報告することができ、結果的に切り捨てられるのは少なくとも31個に達するということです。

もしこれが良心的ではないというなら、一般的に使われる95%の報告値の占める範囲を利用すればよろしい。この場合には平均値を中心にしてそれぞれ標準偏差の1.96倍の値を高値低値に広げることになります。CV2%ということなら、450の平均値では標準偏差が9であると証言しているので、±9×1.96=17.64です。

一般的に、1.96は数値が細かくて煩わしいので2.0と丸めています。それなら±18です。

良心的に450を報告するとき、「432~468の範囲に求める値があります」、と報告することになります。

測定値がどれくらいの誤差を含んでいるかを示すとき、一般的に使われる95%幅、すなわち<平均値±標準偏差×1.96>という幅を、単純に当てはめればよいということですか?

今、話題としてCV2%というものを持ち出されたので、標準偏差が出てきたわけです。とはいえ、通常、測定値のバラツキは正規分布すると考えればよく、誤差を表現するのには標準偏差は都合がよいでしょう。
再び図を使って、報告値の誤差が持っている意味について理解してみましょう。

図2:測定値の有効な範囲

図2:測定値の有効な範囲

図にはそれぞれ450と425の平均値を持つ試料を測定したときの群を正規分布で示しました。測定系は統計学的な管理ができていると考えて、両方の標準偏差は同じと見なしています。450の測定値の報告に際して、誤差の表示範囲を441~459と保証するとすれば、低値側の黄色で示した範囲は保証がない測定値です。今、便宜的に低値側に限って示しています。黄色の範囲には全体の測定値の15.9%の測定値が含まれています。

測定値の低い方を441で切って報告するという場合、「精度の保証」という観点からすると、見る人の立っている位置がかわるので測定値のバラツキを分布としてみているのとは違ってきます。

450という真値をもっている試料を測定したとき、その測定系の標準偏差が"9"という値をもっていたら、<平均値±標準偏差×1>という範囲での保証をしようと考えると、繰り返しその試料を測定したその測定値は、モデルの考察からこの範囲に68.3%の値が入ってくることになります。ここで、重要なことは精度管理を目的とした場合、450の真値を平均値からの推定値と知っていることが前提ですから、441~459の区間に、今1回だけ測定したその測定値が入っていないと、測定系に問題があることになってしまいます。

つまり、450の試料を測定して440以下の値や460以上の値が結果として打ち出されたとき、この測定系に異常があるため調整を要するという警告につながります。これが、精度管理として管理範囲を、<平均値±標準偏差×1>という範囲として決めた意味で、そのように併記されて保証がなされるのです。

注意して、次の議論を考えてください。

患者検体を、試料として同じ測定系で測定しようとするとき、それは測定値について何も情報がない未知検体です。今、仮に500と結果が打ち出されたとしてみましょう。これは、平均値500近辺をもつ試料について、その分布を正規分布モデルで考え、1つの標本データを拾ってきたと考えるのが妥当です。おそらく上の図と同じように分布するのでしょうが、たった1回の測定では平均値を特定できません。平均値は508かもしれず、497かもしれません。

もしこのとき、同じロット内で先から話題にしている450の精度管理試料が測定されていて、それは上で示してきた分布をするということが分かっているものであるなら、その精度管理試料の測定値を測定系の状態を判断するのに使うことができます。つまり、その値の68.3%は、440以下にはならず、460以上にはならないはずです。そうすると、この500と打ち出された試料の真値は、おなじ68.3%の確率で500の値を含むところにあるといえましょう。これが測定系を統計学的な管理状態に保つという重要な意味です。

常識的に、500と報告する場合は、それが中央値であると見なしていますが、あくまでも便宜的にそうしているので、正規分布をしていると考えたときその平均値である真値に対しては、たまたま高値か低値の境界域にある測定値かもしれません。しかし、それ以上推測する手だてがないので、中央値という「言い過ぎ」に対して黙しているといえば良心的でしょうか。

繰り返しますと、未知検体について測定された測定値に対する誤差の範囲を保証するには、精度管理試料が同時に測定されていなければなりません。そうでなければ、測定が行われたときの測定系の精度に関して、どんな情報もないのです。そして予め知っているその分布に照らして、そのとき測定された精度管理試料の測定値が規定の範囲内にあるなら、測定系はほかの試料についても同様のバラツキで測定しているはずで問題がないと言ってもよい、という説明をしているのです。したがって、実際の誤差の範囲は、保証の範囲とは別問題で、保証をどう定めるかは要求されている誤差とのかねあいで決定します。

誤差に関する測定値の保証と、精度管理でのバラツキの程度に対する保証は同じではないということですか?

精度管理はあくまでも誤差の要因の一つである測定系のバラツキを、一定の低さにおさえる努力が功を奏しているか、その判断をする手段です。そのバラツキの程度から誤差を推測するのは別の議論になります。誤差というのは品質保証に関わっている問題で、管理しているその作業が保証を満足しているかどうかを測定系の現実的なバラツキで判断するのです。

誤差は、多重測定をした平均値に対する割合、あるいは測定値と同じ単位系で一定の幅として表現されます。450に対して2%とか、450±9などです。

この2%が誤差を示すことになりますが、詳しい説明がなければごく一般的にそれが95%信頼範囲だということにされています。しかし、2%と表示した検査技師は、CV2%と言ったつもりかもしれません。それなら、38.3%幅を言っているだけで、95%信頼限界はもっと広い幅になり、数値で言うなら450±18という計算になります。つまり、倍の4%です。

誤差をどう表現するかは、現在臨床検査の世界では標準的な規定がありませんから、誤差の保証はいわば検査室によってまちまちであるかもしれません。もしかすると、どの検査室も具体的な保証はしていないのではないでしょうか。

バラツキの程度に対する保証は、管理の一環としてバラツキを見ているので、外部に向かって特に開示する保証とするデータではありません。

測定系のバラツキを管理することと測定値を保証することと違うということについて、どう考えればよいのかもう一度説明していただけませんか。

精度管理は経営上の重要な手法の一つです。そのことを示す重要な図の見方を示しましょう。
<図2:測定値の有効な範囲>をもう一度見てください。450の試料に対する測定値群の分布において、低値側の黄色に示した範囲は15.9%の測定値が含まれます。精度管理上、450の試料を測定したとき、この範囲に結果が打ち出された場合、測定系が異常だと判断するという規定を定めたとしましょう。この場合、この低値側のことだけ考えてみても25回測定すれば2回はそういうことが起きる計算になります。高値側に出てしまうことも考えれば、計算上ほぼ10回に3回が起きることになります。

この値をいくらに定めるかによって、そのつど測定系の見直しをしなければならないために、経営上で大きく影響を受けます。

今示しているように低値側、高値側にそれぞれ15.9%をとって、管理の境界値を決めた場合には、これでよろしいという測定系の状態は、運営上68.3%の確率でしか合格しません。これをもし、<平均値±標準偏差×1.96>で示される全体の95%範囲が合格とするなら、測定系の運営はずいぶん楽になります。

この測定系に対する善し悪しの判定は、「生産者のリスク」と呼ぶのですが、判定の基準をきっちり決めることによって、このリスクを議論します。たとえば、1回測定して<平均値±標準偏差×1.96>で示される範囲に測定値が入る確率は全体の95%ですが、2回測定してそのどちらも同じ範囲に入る確率は違ってきます。したがって、何回測定して何回が規定の範囲に入っていれば測定系は順調に運転されているという判断基準を設けることになります。これは、作業の結果を合格とするか不合格とするかという判断をしているので、inspectionと呼ばれています。

残念ながらこうした判断は、通常の検査室でまだうまく運営されていないと思いますから、別のところで話すことにしましょう。ふつうは、バラツキ具合を管理図で監視しながら、測定系が統計学的な運転状態にあり、さらに今回に続く次のロットの測定にも同様のことが期待できることを予測的に判断しています。

したがってもう一度繰り返しますと、精度管理上のバラツキをどうするのかということと、測定値の一つ一つの誤差の表示とその保証は必ずしも同じでということではありません。

境界値のそれぞれ反対側にある値が区別できるかできないかという議論で、誤差をどう示すかを保証の問題として議論していました。

保証のことに話を進めるには、まず次のことの方を理解してもらわなくてはなりません。
真値の上で450の試料がいったいいくらの値を持つ試料と区別がつくか、という議論に話題を戻すために、2つの試料の測定値について正規分布モデルを示しました。

450の値を持つ試料が測定系で測定されたとき、標準偏差が9であれば95%範囲の測定値は432~468にあるでしょう。図では低値域だけ、色を変えて示していて、黄色で示される部分がその95%範囲をはずれるものです。つまり黄色の部分は低値域2.5%範囲を示しています。

仮に425という真値を持つものを測定したときに得られるであろう測定値の分布に、450のそれと同じ測定系で測定した場合に得られるだろう分布図を重ねて描いてあります。

もし、黄色の部分を捨ててそれは誤差範囲を超えていると判断するなら、たとえば測定値430は450のものではないと判断することを意味します。この判断にしたがうとき、黄色の部分は、本来450のものが測定された結果であっても450ではないと判断することになります。しかし実際は黄色の部分も450のものを測定した結果ですから、これは正しいものをグループから除外する誤りを犯すことになります。この誤りは「第1種の誤り」とよばれています。あわてて間違いを犯してしまうという意味で「あわて者の誤り」という俗称があります。しばしば議論に出てくるために、煩雑をさける意味を持って、記号αがあてられます。

一方、450と425は区別したい、すなわち425は明らかに450より低いと判定されなくてはいけないというときを考えてみましょう。同じバラツキで測定されたら、425は95%の測定値範囲が407~443になると予測できます。

図3:第一種と第二種の誤り

図3:第一種と第二種の誤り

ところで、450の試料が432までをもってそのバラツキの範囲と決めましたから440は双方の分布範囲が重なっていて、明らかに450の範囲にも425の範囲に入ってしまうことになり、そうなると450と425とは区別がつきません。図では425の試料の分布におけるこの範囲を赤色で示しました。

これは450の試料から見れば、本来正しくないものを受け入れてしまう誤りです。この誤りは「第2種の誤り」、俗には「ぼんやり者の誤り」とよばれています。記号ßがあてられます。

異なった値をもっている2つの試料に関する識別能力は、測定系の性能に左右されています。

第1種の誤りと、第2種の誤りは図で黄色と赤色の縦の境界線を左右にずらすことによって値が変わります。

すなわち第1種の誤り(黄色)を少なくすれば第2種の誤り(赤色)が大きくなり、第2種の誤りを少なくすれば第1種の誤りは大きくなります。

誤差として臨床側に示すとき、このことをふまえてαとßをどう規定するかが問題となります。値が似かよった2つの試料を測定で区別するためには、測定系の標準偏差を小さくすることです。図では分布のとがり度が高くなり、2つの分布のすそ野は離れます。

ただし、管理運営上ただちに標準偏差を小さくすることは容易ではありません。

境界域を周辺の値と明確に区別するには、バラツキを管理することで可能になりますか?

図を見てください。

図4:2つの接近した値の分解能

図4:2つの接近した値の分解能

図では、450という測定値が標準偏差4.5で測定されている測定系のデータを示しています。正規分モデルでは、95%範囲は平均値の両側の標準偏差に対する±2倍の範囲内が含まれます。450という試料の測定値で441より低い値と、459より高い値は450の測定値ではないというように見なされることになります。つまり、そのような精度管理基準で測定系が運転されるということを意味しています。

このとき同じロットで測定されることになった、真値432という試料が測定値として高めに報告される可能性のあるもので441を越えるものは450と見なされてしまう危険があるのですが、これがßで、432の値を持つ試料を測定して441を越えるものは全体の2.5%しかなく、ここでそれは捨てられることになるわけです。

おそらく逆に言う方が理解しやすいでしょう。
432という試料が測定結果として441より高く報告されるのは高々100回のうち2,3回であるので、めったにそんなことは起こらないといってよい。だから、432という値をもっている試料があれば、それは同じロット内に450という試料があった場合、それと間違われることなどないといってよい。
こういうことを意味しています。

標準偏差が9の場合、425でも450とは区別するのに困難が予想されました。標準偏差を半分に落とすことによって432はα=ß=2.5%でまず区別がつかないことはないといえるようになったわけです。

精度管理の上で、測定系の標準偏差を小さくするのは簡単ではないでしょう。しかし、450と425が明確に区別できるということを臨床の医者が診断上重要な性能だというなら、あるいは、430でさえ区別できなければ意味がないと主張するなら、できる範囲の努力をする必要があるでしょうし、それによって診断性能は改善されるわけで、誤診をなくすことに直結しますから十分な検討をする価値があることになります。とはいえ、標準偏差を小さくするために、高価な器具や特別な訓練を必要とするというような技術上の壁があるなら、同意義がある別の検査を同時に実施して、検査診断の確率を上げるという方法もあることを考慮に入れてください。

たとえば、貧血の診断では、ヘモグロビン濃度とMCVからデータを読むことが推奨されています。赤血球数計測だけでは潜在性の鉄欠乏性貧血ではむしろ誤診につながるといわれています。治療方針がその診断によって大きく違うような場合、1項目の検査情報だけで診断が行われることがないのは、こうした検査の質を冗長性でカバーしていると言ってよいと思います。

経営的にも、むやみに検査を削るという策をとらず、こうした複数の観点から検査の精度管理基準を設定することに配慮することも重要でしょう。