統計不正問題

厚生労働省がおこなっていた毎月勤労統計に不正があったと翁問題となっています。この原因として、担当者が統計に対して疎かったとも言われています。しかし、これについてはもっと深いところに数値の持っている意味を理解していない人が増えているためではないかと思えます。

市場調査のような場合は、調査する対象の質や数によっては、結果の信頼性が大きく損なわれることがあり、ここを理解しておくことが大切です。

数値が持つ意味の中には「有効数字」があります。これは、その数値が含んでいる誤差を考慮したものですが、最近発表されている数値は、これを全く理解していないものがあります。たまたま最近見たものの中に、「我が国のインターネットにおけるトラヒックの集計結果」(総務省)があり、ここに「プロードバンドサービスでの総ダウンロードトラヒック」とした数値の中に、『12,494Gbps(推定値)』とされたものがありました。これはは5ケタの数値で最後の1の位の下で四捨五入したことがうかがえます。これをそのまま信用すれば、0.0005%しか誤差を含んで院いことになりますが、推定値がここまで精度よく求めることは少し考えればわかるはずです。調査票を対象企業に送り、その回答をそのままパソコンなど計算機を使って処理し、出力された数値をそのまま使ったからでしょう。

以前、ある市場調査のデータを見たことがありましたが、その回答票に書かれた数値はどれも1%程度の誤差を含むことがうかがえるものでした。大手企業と小規模企業とでその数値の絶対値は100倍程度異なり、これを単純計算すると小規模企業の下位部分の数値が有効とみなされてしまいます。たとえば大手が10,000との数値であり、信頼できるのは100までであっても、ここに小規模企業からの数値で、全体が100程度のものを合計すると、1の位まで正確なように見えてしまい、0.01%の誤差しか無いように見えてしまいます。実際は100以下の数値は意味のないもので、四捨五入により、100の桁までとすべきものです。

このようなデータは官庁だけでなく、有名な調査会社でも平気で発表しています。数値を見るときは、このようなことを頭の隅においておきたいものです。

2019年02月20日