なにかやったという報告でーためいぶん編 - コミュ障だから明日が僕らをよんだって返事もろくにしなかった

読んで覚える（？）プログラミング

最近学習サイトを見ていないなとふと思いこちらをやってました。実はだいぶ昔に触って放置していたこちらのサイトです。過去記事を調べてみたら一年ぐらい前に触って放置しっぱなしでした。

サイトはこちら
Crunchzilla

過去記事たち
inujini.hatenablog.com
inujini.hatenablog.com

さてさて、こちらのサイト、前回、前々回、前前前世からずっとプログラミング的サムシングの漂う何かをしてきましたが今回そんなものはないです。全編統計っぽいことです。そうしたわけで、知識のアウトプットを兼ねた統計っぽいお話をします。

なににしようかなと思いましたが、あいにく僕はそこまで統計に詳しくないので標準偏差の話とかしようと思います。みなさん標準偏差ご存知ですよね。味噌をつけて食べると美味しいアレです。嘘です。標準偏差は以下のようなものです。

まず、平均は次の式で表されます。（母集団の平均（または母平均）： μ ）
$μ = \frac{1}{n} \sum_{i = 1}^n x_i$
よくわかんない式で書いてますが、合計の数値を個数で割ったやつです。ちなみに、母集団って調査対象全部のことです。アンケートなんかですと全部調べられないので、一部を対象にしたりします。この一部を標本なんて言ったりします。

ここで標準偏差を σ とすると、σ は次のように求められます。あ、標準偏差って何と言いますとデータのばらつきです。プラマイどのくらいばらつきがあるかの指標です。
$σ^2 = \frac{1}{n} \sum_{i = 1}^n (x_i - μ)^2 = \frac{1}{n} \sum_{i = 1}^n x_i^2 - μ^2$

この式にねじ込むとばらつきがでます。σ が二乗の値なので、ルートとってばらつきを出していきます。そんな感じで標準偏差が求まるそうです。

実際問題、現実的な標準偏差を求めようとすると母集団（全体）から調査するって厳しいです。例えば、世界中の人から身長・体重を調査するなどはとてもじゃないけど無理です。そこで、標本なんて呼ばれる一部のデータをサンプリングしてきて集計していきます。サンプリングした時も同じやり方でやれば標準偏差を出すことが出来ます。しかしながら、その方法を使うと不思議な力によってバイアスが発生してしまうのでテコ入れが必要になるそうです。

この不思議な力について、納得のいくような解説は見つけられませんでした。何度もサンプリングしても母集団でのケースと違い結果にゆらぎが出てしまうからテコ入れをするという感じでお願いします。

――といった感じでデータのばらつきって出せるようですよ。