平均と中央値:仕事に役立つ統計

昨年末に予告した通り「仕事に役立つ統計」という記事を書いてまいります。

これといった統計学の本を読んだわけでなく、日々の仕事の中で、 私が自己流で適当にやっているものを書いてまいりますので、 いい加減な記事になるかもしれません。

まあ、適当でいい加減なのはいつものことなので、 この記事もその調子で書いてまいります。

なぜ統計か

まず、何で統計かというと「数字を出したら説得力があるから」 ということであります。

「何か知らんけど◯◯でしょう」と言うよりも、 「この数字から◯◯であると推測されます」or 「この数字より◯◯と結論付けられます」と言った方が、 何か説得力があるという、ただそれだけのことです。

統計の流れ

データを揃える→分析→資料完成→発表

流れとしてはこんな感じであります。

データを揃える際に都合の良いデータしか揃えなかったり、 分析する際に都合の良い分析しかやらなかったりと、 マスゴミみたいなダーティなことも結構やります。

証券会社の営業マンが金融商品買わせるために都合の良いデータしか提示しないのと 同じことでしょうか。

目的は理系の実験の様な公明正大な資料作成ではなく、相手を納得させることなので、 多少の反則は仕方ないね(レ

平均と中央値

それでは、具体的に話を進めてまいります。 今回は平均と中央値という、小学生レベルのお話。

実は、記事の流れは大方決まっていたのですが、 例示するのに適当なデータが見つからず、 半月近く悶々としていたのであります。

そんな折、「ふるさと納税」のサイトに各自治体の納付実績が載っていたので、 長野県各市の実績を集計してみると、以下の通りとなりました。

統計データ
2015年4〜9月実績。千円未満は切捨て。

何で長野かというと、私が長野好き(冬以外)で納税を検討しているのと、 最初山梨をネタにしようかと思ったけど、ワインやら果物やらでパッとしなかったから。

それはともかく、納付金額の平均と中央値は以下の通り。

平均:55,942千円

中央値:5,637千円

「平均と中央値に10倍近い開きがあるじゃないか」と思われるかもしれませんが、 平均値はデータ総和をデータ個数で割ったものなので839,124/15≒55,942千円、 中央値は15個のデータのうちの8番目、総データの真中の数のことをいうので、 飯田市の5,637千円となります。

個数の分布
金額ごとの個数はこんな感じなので、中央値が5百万円ちょいになるのが分かる。

この平均と中央値の乖離については、日本人の年収や貯蓄額でもしばし取り上げられますが、 どちらが正しいという訳でもなく、本例でいうと「長野はふるさと納税額が平均5000万円超である!!」 と主張したければ平均を、「長野は納税額が多い市と少ない市の差が大きすぎる」なんて主張したければ、 中央値を使えば良いんじゃないでしょうか(適当)

※分かっていらっしゃるでしょうが、Excelでは平均はAVERAGE関数、中央値はMEDIAN関数です。 こんなもん、いちいち電卓叩いて計算するのは面倒なのでEcxelを使いましょう。 Excel高くて持っていない人は、フリーのOpenOfficeを使いましょう。

色々分析する

用語解説は置いといて、 大事なのは「データから何が言えるか」ということであります。

もっと何か見えてこないか、金額を件数で割って1件あたりの納税金額を算出すると、 以下のようになります。

統計データ改
1件あたりの平均納税額。単位は千円。

上表からいえる(推測できる)ことは、

こんな感じであり、これを整理して結論を導き出せば良いわけです。 分析といっても大層なものでなく、こんな思い付きで充分です。

ただ今回は特に何も考えてなかったので、結論は無しです(えぇ…)。

敢えて言うなら、茅野に寄付して前宮と守矢家の保存に役立ててもらいたい、 他の市だと人数が多くて「統計上の数字」にしかならないけど、 茅野市くらい寄付の件数が少ないと名前くらい覚えてもらえて感謝されそう、 ということくらいでしょうか。 (注:諏訪大社前宮と守矢家は諏訪市でなく茅野市)

こんなグダグダにならないように、まずは主張したいことを明確にして データなり数字なりをいじり回しましょう。

次回はおそらく偏差について書きますが、偏差値についてになってしまうかもで、 それだと仕事と関係ないじゃんということになりますので、今考え中です。

<追記>
須坂市とナントカ市を入れるの忘れてたああ!

偏差値の求め方 分散と標準偏差に続く。

生きる上で大変ためになる記事一例

引き寄せに関する大変素晴らしい記事一例

...