SOLUTION
検査室支援情報
精度管理の考え方
数理統計学で使う基本的な用語
ヒストグラム histogram
離散確率変数Xの分布を図で表現するにはヒストグラムと呼ばれるグラフで示すのが便利である。そのためには、扱う値を大きさの順に並べ、小さな数値から順に1つずつを階級とする。その階級に対する測定値などの量を階級値と呼び、各階級はその数値で示す。したがって、同じ測定値は同じ階級に属する。階級は隣り合うものを適宜に合わせて総階級数を増減し全体像がうまくひとつの図として表せるように工夫するとよい。複数の階級を1つの階級として合わした場合には、最大値と最小値の中央値を階級値とする。
Xが連続確率変数の場合には、階級を測定値の区間でとる。たとえば、「100〜120mg/dlにある測定値」を1つの階級値とする。その階級の階級値は中点をとり、この場合なら110mg/dlと表現する。区間の場合には、上限値もしくは下限値のどちらかをその階級に含めるために、ルールを決めておく。
棒グラフとして図示されるヒストグラムでは、階級の数だけの棒グラフが立つことになるが、この階級の数をいくつにするかによって全体像の把握がしやすいかどうかが決まるので、いい加減にとるわけには行かない。試行錯誤的なところもあるが、Stargesの式というのがあって、見やすい階級数を決める目安を与えてくれる。
階級の数=1+(log n / log 2) ・・・(Stargesの式)
nがデータの総数で、このStargesの式によれば、およそnが500あれば階級数を10とすればいろいろの情報を一目で知ることができるヒストグラムが描ける。
グラフでは横軸にとった階級値の上に、その階級に含まれる度数を棒グラフとして示す。測定値xがある階級に落ちる相対的な頻度は、その階級値の上に立つ棒グラフの面積を棒グラフの全面積で割ればよい。この相対的な頻度を、確率とよぶ場合がある。
図1.ヒストグラムの例
ヒストグラムは、目で見て直感的な判断をするには便利がよいが、量的な関係を正確に与えない。このためには、得られたヒストグラムに関するデータを数量的に記述する工夫が必要である。
最も一般的な、分布を代表する2つの重要な統計量がある。
算術的な「平均値」は分布を代表する一つである。1つの試料が多重測定されたとき、分布中央の値であるこの平均値は、その試料がアプリオリ*に持っていた「真値」にどれほど近いかが測定法の性能の一つとして評価される。すなわちその乖離は、「正確性
trueness」として議論される。平均値はすべての測定値の総和を測定の繰り返し回数で割ったものであり、一つ一つの測定値との距離をすべて足すとプラスマイナスされてゼロとなる代表値である。
一方、各測定値とこの平均値からの距離を用いて「分散」が計算され、精密性(もしくは再現性)precisionが議論される。平均値と各測定値の距離は、当然プラスマイナスがあるためそのまま総和を求めればゼロになるが、「分散」は各距離を二乗し総和を求めたものである。一般的なバラツキの指標として用いられる標準偏差については、後述する。
[*aprioriに:アプリオリaprioriは、a phrase used to characterize reasoning or arguing from causes to effects, from abstract notions to their conditions or consequences, from propositions or assumed axioms; and not from experience]