コミュ障だから明日が僕らをよんだって返事もろくにしなかった

何かを創る人に憧れたからブログをはじめたんだと思うよ

R :統計からはじまらない王侯生活

ラブ王侯

スカム世界よりこんにちは。僕です。世知辛いこの世界で腐っていくだけの人生、僕はいかにして生きていけばよいのでしょうか?皆様はこんな人間になってはいけませんよ。僕は……。やはり、ダメみたいですね。勇気がなくて、意気地がなくて、前に進めなくて、迷惑かけて、ため息ばかりで、理想ばかりを追っての毎日です。こうやって文章に書きますと波乱万丈の面白人生に見えますが、実際のところはどん底を這うばかりの凋落人生でございます。

これが茶番なら嬉しいところですが、現実はとことんまでに残酷なものです。世知辛いですね……。


この一年間のPVを雑に精査してみる

そうしたわけでコレの続きっぽいことでもしようと思います。
inujini.hatenablog.com

月のPV出したときに前々から思っていたことなんですけど、「2017年1月頃のデータはなんらかの拍子でバズってしまった値だから集計から除外した方が良いのでは?」って……。

今回は箱ひげ図でこいつが除外すべき因子か確かめてみるなどしていこうと思います。このブログを読んでいる聡明な読者様なら説明する必要はないと思いますが、"僕" の理解を深めるために説明させていただきます。

箱ひげ図とは

箱ひげ図(はこひげず、箱髭図、英: box plot、box-and-whisker plot)は、データのばらつきをわかりやすく表現するための統計図である。主に多くの水準からなる分布を視覚的に要約し、比較するために用いる。ジョン・テューキーが1970年代に提唱した。様々な分野で利用されるが、特に品質管理で盛んに用いられる。箱(box)と、その両側に出たひげ(whisker)で表現されることからこの名がある。

有識者wiki)曰くこのようなものだそうです。
箱ひげ図 - Wikipedia

まあ、何言っているか分かりませんが「データのばらつき」が分かります。そして、あまりにおかしい値を外れ値として表示してくれます。そんな感じです。実際はそうでもないけどざっくりと言い切ってしまうとそんな感じです。

ブログのアクセス数やなんかって、どんどん増えていく印象ですけどアクセス増加のためのテクニックとか特にしていないので何も変わらないであろうという認識で進めていきます。

Rでいじってみる

そうしたわけで、Pythonよりも僕が統計っぽいことやっている気がするR言語でデータをいじっていきます。

f:id:andron:20180311021519p:plain

こんな感じになりました。件のデータはやはり抜けてしまいましたね。まあ、この評価方法が良いのか悪いのかよく分かりませんが月末のアクセス数報告とかする際には気にかけておくことにします。それに、雑に精査するって宣言しましたしね。素人がなんかやろうとしたらこんなものです。仕方ないね。


ソース

> pv<-c(18,30,245,114,93,69,61,89,104,90,109,56,93,88,42,70)
> boxplot(pv)


■ 今までのデータ

年月 PV
2016/11 18
2016/12 30
2017/1 245
2017/2 114
2017/3 93
2017/4 69
2017/5 61
2017/6 89
2017/7 104
2017/8 90
2017/9 109
2017/10 56
2017/11 93
2017/12 88
2018/1 42
2018/2 70