広島カープと楽天イーグルスのことをデータを交えて書きます。勉強している統計学のこともちょっと書きたいです。

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
  1. --/--/--(--) --:--:--|
  2. スポンサー広告

マエケン球宴出場記念:統計分析入門(4)、いまさら防御率比較

こんにちは、カープファン学生です。

オールスター出場選手、あと一枠ですが、ぜひ廣瀬が選ばれてほしいですね!
カープからは、マエケン、東出、栗原と、3人が選ばれています。
栗原も廣瀬も体調が心配ですが、もし出られるならがんばってほしいですね。

さて、このブログでも、久しぶりに統計分析ものをやってみようと思います。
マエケンがオールスターに出るということで、
(いまさらながらですが)マエケンの2009年と2010年の防御率比較をしたいと思います!!


以前、統計分析入門と題して、打率を例に、平均と分散、標準偏差の話をしました
(リンクはこちら)。

簡単に復習しますと、
1.打率などの「平均」は、その打者の潜在能力の推定に用いることができる
2.「分散」や「標準偏差」は、その推定がどの程度正確か、という正確さの指標を与えてくれる、
という話でした。

同じことが、打者の打率だけなく、投手の防御率にもいえます。すなわち、
1.防御率は、その投手の潜在能力(失点可能性)の推定に用いることができる
2.分散や標準偏差は、その推定がどの程度正確か、という正確さの指標を与えてくれる、
ということです。

防御率はご存知の通り、9イニング投げたときに、平均してその投手が何点失点するか、という指標です。
ただ、最近は先発完投も少なくなってきていて、9イニングの平均……という数値は、
解釈の仕方が少し難しくなってきています。
そういうわけで、今回は防御率といいつつも、「1イニングでその投手が平均何点失点するか」
という、言わば、イニング防御率、の分析をしてみようと思います
(ここでは自責点ではなく失点を用いて計算していますので、ズレがあるのですが、
大まかにいえば、イニング防御率=防御率/9、です)。


今回は、マエケンの2009年と2010年のイニング防御率を見てみて、
今年、たしかに彼のイニング防御率が低下したのかどうか、分析したいと思います。

まずはデータについて簡単に説明します。
今回用いるのは、マエケンが2009年に登板した、公式戦29試合の記録と、
2010年は6/25までに登板した、公式戦15試合の記録です。
各イニングごとに、マエケンが何点失ったかのデータがあります。
下の表は、シーズン開幕からマエケンが投げた最初の30イニングについての、失点の記録です。

maken09-10_1.jpg

ちなみに、2009年は全部で194イニング、2010年は6/25までで118イニング投げています。
(あらためて、今年のイニング数すごいですね……)
この表を見ると、開幕20イニングくらいまでは、2009年の方が優秀に見えますね。
ただこのあと、2009年は徐々に失点が増えていきます。
下のグラフを見てください。

maken09-10_2.jpg

このグラフは、先ほどの表と同様、通算何イニング目に何点失点したかを記録したものです。
青いのが2009年、赤いのが2010年のグラフです。
見ていただければわかるように、2009年は、失点頻度も、また一度に取られる失点も多いです。
一方で2010年は、失点頻度自体が少なく、一度に取られる失点も少ないですね。


このデータを用いて、まず2009年と2010年、それぞれのイニング防御率を計算すると、
2009年:イニング防御率=0.429、標準偏差=0.959、投球イニング数=194
2010年:イニング防御率=0.177、標準偏差=0.500、投球イニング数=118
となります。

去年は、イニング毎の失点は平均0.429点ということで、
仮に7回まで投げたら、平均失点は3点程度、9回投げたら3.8点程度でした。
今年は、イニング毎の失点は平均0.177点に低下しており、
仮に7回まで投げたら、平均失点は1.2点程度、9回投げても1.7点程度です。

イニング防御率だけを見ると、確かに今年になって減少しています。
それではここから直ちに、「マエケンは今年開花した」と断言できるかというと、まだ早いです。
それというのも、以前、分散と標準偏差の回でお話したように(あのときは打率でしたが)、
この防御率の差は、単なる偶然の産物かもしれないからです。
潜在能力に変化があったのか、単なる偶然かを教えてくれるのが、標準偏差でした。
具体的には、標準偏差とサンプル数をもとに、信頼区間を計算する、という作業が必要になります。


実際にやってみましょう。
今回は、防御率が下がったのかそうでないのか、に関心があるのですが、
まずはシーズン毎に、イニング防御率の信頼区間を出してみましょう。

復習しますと、たとえば95%信頼区間は(68%、99.7%は今回は省略します)、

95%信頼区間=イニング防御率±(2*誤差範囲)

と計算されます。ただし、誤差範囲=標準偏差/(イニング数の平方根)、です。

具体的に計算すると、
2009年:誤差範囲=0.959/(ルート194)=0.069
    95%信頼区間=0.429±(2*0.069)=[0.291,0.567]

2010年:誤差範囲=0.500/(ルート118)=0.046
    95%信頼区間=0.177±(2*0.046)=[0.085,0.269]

となります。解釈としては、
2009年の潜在的な失点可能性は、95%の確率で、毎イニング0.291点から0.567点、
2010年の潜在的な失点可能性は、95%の確率で、毎イニング0.085点から0.269点でした。

つまり去年は、少なくとも毎回0.3点くらいは取られる投手だったのが、
今年は、多くとも毎回0.27点程度に抑えられる投手になった、ということです。

ここからすでに、マエケンの失点可能性は減少した、と言ってもよさそうですが、
一応より厳密な分析をするために、イニング防御率の差を計算し、
その差の信頼区間(個々のではなく、差の、です)を計算してみましょう。

[2009年のイニング防御率]-[2010年のイニング防御率]を計算してみると、
0.429-0.177=0.252、となります。
よって95%信頼区間は、0.252±(2*誤差範囲)で計算できます。
今回のように、2つの平均の差の信頼区間を求める場合は、誤差範囲が少しややこしくて、

誤差範囲=[(2009年標準偏差)^2/2009年イニング数 + (2010年標準偏差)^2/2010年イニング数]の平方根、

という風に計算されます(ヤヤコシイデスネ)。従って、
誤差範囲=[0.959^2/194 + 0.500^2/118]の平方根=0.083、となります。

よって、95%信頼区間=[0.086,0.418]です。
解釈としては、潜在的なイニング防御率の差(今年どれだけ潜在的な失点可能性が下がったか)は、
95%の確率で、0.086と0.418の間にある
、ということです。

ちょっと分かりにくいですかね。
具体的な数字よりも、ここで注目していただきたいのは、信頼区間が0を含んでない、という事実です。
この事実が意味するのは、「95%以上の確率で、2010年の方が2009年よりも失点可能性が低い」
逆にいえば、「本当は能力に変化がないのに、偶然差が出ただけ」という確率は、
わずか5%以下しかない
、ということです。

(ちなみに、99.7%信頼区間も計算してみると、99.7%信頼区間=[0.004,0.501]なので、
 「本当は能力に変化がないのに、偶然差が出ただけ」という確率は、実はわずか0.3%以下でした)


というわけで、マエケンは確かに、今シーズンその投手能力を飛躍させた、といえそうです。
球界を代表するエースとして、永くセリーグに君臨してほしいですね。


さて、今回は「統計分析入門(4)」と題しつつも、あまり詳しい説明ができませんでしたが、
この9連戦が終わったあたりか、雨で中止になったときなどに、
もう少し詳しくやっていきたいと思いますので、よかったら読んでやってください。
次回は、他の投手についても、似たような分析をやってみたいと思っています。

にほんブログ村 野球ブログ 広島東洋カープへ

スポンサーサイト
  1. 2010/07/13(火) 21:30:00|
  2. 統計分析入門
  3. | トラックバック:0
  4. | コメント:0

嶋のこと&統計分析入門(3):仮想3割打者の打率・完結編

こんにちは、カープファン学生です。

カープ、勝ちましたね!!!
マエケンは、一度満塁のピンチがあったようですが、その後はさすがでしたね。
嶋も、しばらく好調な中、やっと昨日はお立ち台に呼ばれてよかったですね。
以前タクローさんと、「もらったチャンスを大事にしてがんばらないと」
みたいな話をしたようですが(タクローブログでしたっけ?)、

彼らのように、実績もあり、人柄もできている先輩たちが、
後輩を指導しがてら、でも後ろでレギュラーの座をおびやかす!
そんな、層の厚さを持続できたらいいですね。


さてさて、リーグ戦も再開して、またデータ収集もやっていきたいので、
昨日までやっていた統計分析入門(分散・標準偏差)のシリーズも終わらせてしまいましょう。

簡単に復習しますと、
1.打率などの「平均」は、その打者の潜在能力の推定に用いることができる
2.「分散」や「標準偏差」は、その推定がどの程度正確か、という正確さの指標を与えてくれる、
という話でした。

前回は例として、仮想3割打者、H選手の開幕10打席のデータを見て、
そこから得られる潜在的打率の推定は、あまり正確でない、という話をしました。
今日はそれを踏まえ、それでは「何打席くらいみると信頼できる予測ができるか」
というお話をしたいと思います。

データは以前と同じものを用いましょう。
H選手の、シーズン400打席のまとめが以下の表1です。
区切りのいい打席数の時点における、打率と、その時点での標準偏差
そして誤差範囲(=標準偏差/(打数の平方根))を載せています:

(表1)
stdev2.jpg

打席数が増えるに従って、誤差範囲が小さくなってることに気づいてくださいね!
これが、正確な予測を行うためにとても重要だ、というのが前回のお話でした。

それでは各時点において、打率をもとに潜在的打率を予想したとして、
それがどの程度の正確さを持つものなのか、具体的に計算してみましょう。
これも前回の復習ですが、以下の統計学の結果を用います:

「潜在的打率が、
打率±誤差範囲の間に入っている確率は約68%、
打率±(2*誤差範囲)の間に入っている確率は約95%、
打率±(3*誤差範囲)の間に入っている確率は約99.7%、となる」


前回忘れていましたが、このように、一定の確率で潜在的打率を含んでいる区間のことを、
「(潜在的打率の)信頼区間」と呼びます。具体的には、
打率±誤差範囲は「68%信頼区間」、打率±(2*誤差範囲)は「95%信頼区間」
といったような具合です。
いま、100打席時点と400打席時点についての信頼区間を計算すると、

(1)100打席時点での推定:この時点では、
打率=.270、誤差範囲=0.444/(ルート100)=.044なので、潜在的打率は、
68%の確率で.226と.314の間にあり、
95%の確率で.181と.359の間にあり、
99.7%の確率で.137と.403の間にあります。

言い換えると、100打席時点における潜在的打率の信頼区間は、
68%信頼区間が.226から.314、
95%信頼区間が.181から.359、
99.7%信頼区間が.137から.403、です。

(2)400打席時点での推定:この時点では、
打率=.290、誤差範囲=0.454/(ルート400)=.023なので、潜在的打率の信頼区間は、
68%信頼区間が.267から.313、
95%信頼区間が.245から.335、
99.7%信頼区間が.222から.358、
ということになります。

次の表2は、毎打席同様の推定を行った際の、信頼区間の推移です。

(表2)
stdev3.jpg

オレンジが68%信頼区間、緑が95%信頼区間、青が99.7%信頼区間です。
おおまかにいえば、だいたい100打席目から150打席目あたりから、
信頼区間3種類とも安定した動きを見せています

そのシーズンの選手について予想したいと思ったら、
少なくともそのくらいの打席は見たい、という感じですかね。

ところで、多くの場合、私たちが関心があるのは、
「最高で」毎試合何本くらいヒットを打ってくれるのかよりも、
「最低でも」何本くらいのヒットが期待できるのか、ということですよね。
例えばシーズン後半、300打席時点のあたりの、
CS争い(もとい、首位争い!)の大事な時期を考えてみましょう。
この時点でのH選手の95%信頼区間の下限を見てみると、.247となっています
(95%信頼区間の上限は.353、打率はちょうど.300)。
つまり、一試合4打席あると、かなりの高確率で、最低1打席くらいはヒットを打ってくれます
チャンスでの一振りなのか、チャンスメークのきっかけとなる一打なのかはわかりませんが、
いずれにせよ、ワンチャンスがものを言うような試合では、
これは重要な情報といえるのではないでしょうか。

また、シーズン終わりまでのデータを取れば、
来シーズンのその選手について、ある程度予測ができるでしょう。
(もちろんシーズンをまたいでしまうと、年齢の影響で潜在的打率も変化するでしょうし、
 故障や、その他いろんなイベントの可能性もあり、予測精度は落ちるでしょう。
 ここでは、年齢の影響はあまりなく、故障等大きなイベントがなかった場合、
 という前提をおいての話をします)
特にスタメンでない選手の場合、シーズン打席数は結構少なくなってしまうので、
そのシーズン内だけでは精度の高い予測ができなくなってしまいます。
このような場合は、過去のデータも含めて予測する、という方法になるでしょうかね。

例として、昨日活躍の嶋選手を最後に見てみましょう。
嶋は毎年それなりに期待されつつ、けがや手術でいまいち本領発揮できず、
今期も天谷、フィオの不調がなければレギュラーは厳しい状況でした。
実際昨年は、175打数で打率.229と、いまいちな結果でしたが、
この不調の原因のひとつは、その前のオフに行った肘手術からの復調の遅れと思われます。
今年はそれなりに復調しているようですので、
ひじ痛に悩んだ2009年の成績だけでなく、その前の2008年のデータもあわせて、
今年の嶋について見てみることにしましょう。

2008年は301打数93安打、2009年は175打数40安打なので、
この2年の通算で476打数113安打、打率は.279です。
標準偏差が0.449、誤差範囲が0.021なので、95%信頼区間は.238から.321です。
つまり、この2年のデータからの予想でいえば、さっきの仮想のH選手ではないですが、
少なくとも4打席に1打席くらいは、高確率でヒットを打てる能力を秘めている
ということができるでしょう。
2009年のデータは肘の手術に影響された数値であることを考えれば、
本来のレベルまで復調できれば、さらにいい成績が期待できるのではと思います。

まだまだ活躍して、いろんな意味で後輩たちのお手本になってほしいですね!


さてそれでは、今日はこのあたりで終わりにしたいと思います。
今後はまた、試合のあった日はそのデータ収集、なかった日に少しずつ企画物、
という感じでやっていければと思います。
もしよろしければ、また左上のポチをよろしくお願いします!
コメントも引き続き、お待ちしています~。
  1. 2010/06/20(日) 10:15:30|
  2. 統計分析入門
  3. | トラックバック:0
  4. | コメント:0

統計分析入門(2):仮想3割打者の打率、続編

こんにちは、カープファン学生です。
昨日に引き続き、今日は統計のお勉強第2回ということで、
分散と標準偏差について見てみることにしましょう。

どちらも、データのばらつきを見るための指標ですが、まずは分散をやりましょう。
昨日と同様、まずは保険のセールスマンの例を考えてみます。
昨日登場してもらったセールスマン(A氏と呼びます)にもう一度登場してもらうと、
A氏の毎月の保険成約数(契約を結んだ数)は、
1月は10個、2月は12個、3月は8個でした。平均成約数は、10です。

毎月の成約数をよく見ると、1月は平均と同じ値ですが、
2月は平均よりも上にぶれ、3月は平均よりも下にぶれています。
この「ぶれ」が合計でどれくらいあるかを測るのが、分散の目的です。

比較するために、もうひとり、別のセールスマン(B氏)に登場してもらいましょう。
B氏の毎月の成約数を、仮に、
1月は10個、2月は20個、3月は0個だったとしましょう。
平均成約数は、A氏と同様10個です。
1月は平均と同じ値ですが、2月は平均より上にぶれ、3月は平均より下にぶれています。
しかしながら、A氏と比べてみると、2月も3月も、そのぶれ具合が大きいことに気づきます。
(例えば2月は、A氏は平均より上に2個ぶれましたが、B氏は平均より10個もぶれました)
つまり、この2人のデータのばらつきを比べると、B氏の方がばらつきが大きいです。

(表1)
stdev1.jpg

では具体的な分散の計算式を以下にあげましょう。具体的には、
[1月の成約数-平均成約数]の2乗
+[2月の成約数-平均成約数]の2乗
+[3月の成約数-平均成約数]の2乗
を計算して、それを[サンプルの数-1](=3-1=2)で割ったもの、が分散です。

……ややこしいですね!!
まあとりあえずは、分散とはそうやって計算するものなのさ(ピシャリ
ということで、先に進んでいきましょう。
今日の(追記1)で、計算式についてもう少し詳しく説明していますので、
興味のある方は最後に読んでみてください。

まずA氏の成約数の分散は、[(10-10)^2+(12-10)^2+(8-10)^2]/2=4、となります
(「^2」は、「2乗する」という意味です)。
つまり、A氏のデータのばらつき度合いは、4だ、ということです。
(この4という数字に意味はあるのか??それは後で説明しましょう)

同様にB氏のデータの分散は、[(10-10)^2+(20-10)^2+(0-10)^2]/2=100、となります。
B氏のデータのばらつき度合いは、100だ、ということです。
A氏よりばらつき度合いが大きい、というわけですね。

以上が分散のお話。
標準偏差は、なんだかモノモノシイ名前ですが、
単に分散の平方根(ルート)の値です。
A氏は、分散が4だったので、標準偏差はルート4、つまり2です。
B氏は、分散が100だったので、標準偏差はルート100、つまり10です。

……さて、今日は長々と保険の話をしてしまいましたが、そろそろ野球に戻りましょう!
と言いたいところですが、ただその前に。
最後にもう一度だけ原点の質問に戻ってみましょう。
つまり、分散や標準偏差を計算することで、何かいいことがあるのか?ということです。

昨日議論したように、平均成約数は、そのセールスマンの潜在能力の指標として使えます。
分散標準偏差は、この平均成約数が、「潜在能力の指標としてどのくらい正確な指標か
という情報を与えてくれます。

例えば上のケースでは、A氏もB氏も、平均成約数は10個で同じでした。
しかしB氏の方はデータのばらつきが大きく、
20個のときもあれば0個のときもあって、まったく安定していません。
平均が10だからといって、これをB氏の潜在能力とみるのは、やや抵抗があります。
一方A氏の場合は、データのばらつきが比較的小さいので、
平均の10という値は、比較的正確にA氏の能力を表しているといえるでしょう。
(あくまでB氏と比較して、ということですけど)

このように、分散や標準偏差は、データのばらつきを表すとともに、
潜在能力を平均値で推定する場合の、その推定の正確さをも表しています。
と、まとめたところで、ようやく……野球の話に戻りましょう!



さてさて、今日も昨日と同様、打率をとりあげます。
昨日議論したように、打率は「(その打者が)どれくらいの割合で安打を打っているか」
という指標で、平均の一例としてみることができます。
この打率を用いて、その打者の潜在能力(潜在的打率)を測るのが、ねらいの一つでした。
昨日の復習ですが、打率は、その打者が(今まで)どれくらいの割合で安打を打っているか、で、
潜在的打率は、その打者がどれくらいの確率で安打を打つ能力を秘めているか、です。

さて、打率はその打者の安打、凡打のデータを用いて計算しましたが、
同じデータを用いて、分散と標準偏差も計算することができます。
昨日の仮想的3割打者、H選手にもう一度登場いただいて、分散を計算してみましょう。

(表2)
avg01.jpg

表2は、H選手の最初の10打席の記録で、昨日と同じものです。
仮に、まだシーズンは始まったばかりで、H選手のデータはこの10打席分だけとします。
せっかちなファンは、去年活躍したH選手を、今年のキーマンとして注目しているので、
この10打席でさっそく、H選手の今年の打撃能力を予測してみることにした、というわけです。

この10打席の打率は.200ですから、これがH選手の今年の潜在的打率の推定値、となります。

低いですね……。

アンチH選手なファンだったら、「もうあいつは2軍行きだ!」と主張するかもしれません。

しかし待ってください。
この予測が正確かどうかは、分散や標準偏差を計算するまでは何ともいえません。
同じ表を使って、H選手の安打データの分散と標準偏差を計算すると、次のようになります。

分散:[(0-0.2)^2+(1-0.2)^2+...+(0-0.2)^2+(0-0.2)^2]/9=0.178
標準偏差:ルート0.178=0.422

って、数字だけ提示されても、なんだかピンときませんよね。
ここで、分散や標準偏差がどういう風に推定の正確さを表すのか、についての、
統計学の定理を(打率の例に即して)書いておきましょう。
と、その前に、以下の定理に出てくる用語「誤差範囲」は、次のように計算されます:

誤差範囲=標準偏差/(サンプル数の平方根)=0.422/(ルート10)=0.133

では定理を述べましょう:

「潜在的打率が、
打率±誤差範囲の間に入っている確率は約68%、
打率±(2*誤差範囲)の間に入っている確率は約95%、
打率±(3*誤差範囲)の間に入っている確率は約99.7%、となる」
(「±」は「プラスマイナス」、「*」は「かける」と読んでください)

(前回同様、ここでは不正確な書き方をしてます。
 詳しくは、追記2の理論編を参照のほど……)

さて、今回のH選手の場合、打率は.200、誤差範囲は.133ですから、潜在的打率は
.2±.133、つまり.067から.333の間に入っている確率が約68%
.2±(2*.133)、つまり、「ほぼ0」から.467の間に入っている確率が約95%
.2±(3*.133)、つまり、「ほぼ0」から.600の間に入っている確率が約99.7%
ということになります。

(注:単純に計算すると、後者2つの下限はマイナスの値になります。
 潜在的打率がマイナスになることはないので、ここでは「ほぼ0」という表現を使いました)

確率68%、95%、99.7%というのは、それぞれ予測が当たる確率を表します。
例えば確率68%で、H選手の潜在的打率は、.067から.333の間にある、ということは、
逆に言うと、確率32%で、潜在的打率はその間にない(.067未満か、.333以上)となります。
かなり外れの確率が高い、ということです。
(実際は、このH選手の潜在的打率は.300ですから、今回はたまたま当たってるんですけど)

逆に、95%や99.7%の高確率で当たる予測をしようとすると、
どうしても範囲が広くなってしまいます。
潜在的打率がほぼ0かもしれないし、.600かもしれないなんて……。
予測としては、いまいちどころか、ほとんど意味をなさないですね。
H選手が6割越えの化け物でないことが分かったところで、だから何?って感じです。

……えーと、ちょっと肩透かしな感じになってしまいましたが、
この分析のひとつの結論としては、10打席程度では、
その打者の潜在的打率を推定することはほぼ不可能だ
、ということです。
というか、推定自体はできるのですが、随分と不正確な推定になってしまう、ということです。

ではどうすれば正確な推定ができるのか?
一つの答えは、誤差範囲の計算式にあります。
誤差範囲の分母は、サンプル数(その打者の打数)の平方根です。
つまり、打数が大きくなればなるほど、誤差範囲は小さくなります
そして誤差範囲が小さくなれば、95%や99.7%の推定をしても、
「0以上.600未満」なんてばかげた値は出なくなるわけです。

さて今回は、分散の計算方法について、保険の例で長々とやってしまったため、
このあたりでいったん筆を置くことにしましょう。
予定していたことの半分もできないまま分量を費やしてしまいましたが、
明日、分散&標準偏差の完結編をアップできる予定です。
まあ野球も雨天中止のようですし、ゆっくり行きたいと思います……。

いつものように、皆さんのポチ(ブログの一番左上です!)が励みになります。
また、コメントも絶賛募集中ですので、ぜひよろしくお願いします~。
(今回は特に、ややこしい分散の話でしたので、
 率直に「わからなかった!」とかの感想も大歓迎です!)

それではまた明日~。


(追記1)
この追記では、分散の計算方法について、もう少し詳しく見てみることにしましょう。

まずは、保険の例での、分散の計算式をもう一度:
[1月の成約数-平均成約数]の2乗
+[2月の成約数-平均成約数]の2乗
+[3月の成約数-平均成約数]の2乗
を計算して、それを[サンプルの数-1](=3-1=2)で割ったもの、が分散です。

もう少し具体的に、保険セールスマン、A氏のデータを使って説明しましょう。
[1月の成約数-平均成約数]は、A氏の1月の成約数が、平均からどれくらいぶれたか、です。
1月の成約数は10で、これは平均とぴったり同じなので、ぶれは0ですね。
[2月の成約数-平均成約数]は、12-10=2です。
2月は平均より上に2だけぶれた、ということです。
[3月の成約数-平均成約数]は、8-10=-2です。下にぶれたので、負の数です。
従って、分散は、[0^2+2^2+(-2)^2]/2=4、となります。

同様にB氏のデータの分散は、[(10-10)^2+(20-10)^2+(0-10)^2]/2=100、となります。
上で述べたように、A氏よりばらつき度合いが大きい、というわけですね。

ところで、分散を計算する際に、
どうして[毎月の成約数-平均成約数]を単純に足し合わせずに、
2乗してから足し合わせるのでしょうか?
その理由は、[毎月の成約数-平均成約数]を単純に足し合わせてしまうと、
上にぶれた月と、下にぶれた月を、相殺してしまうから
です。
A氏の場合、2月は上に2だけぶれ、3月は下に2だけぶれたわけですが、
それぞれを2乗することで、上にぶれた分も、下にぶれた分も、
同等に「ぶれ」として加算していくことができるわけですね。

以上、分散についての追記でした~。


(追記2)
今日述べた定理は、統計学で「中心極限定理」と呼ばれる定理です……、
というか、中心極限定理をもとにして得られる結果の一部です。
この定理そのものを正確に記述するには、「正規分布」などという
用語を導入しないといけないので、今回はやめました。

でもまあ、参考までに、まずは定理をより正確に
(完全に正確ではないですが、まあそこは仕方ないとして)記述しておきましょう:

中心極限定理(打率に即して)
「打数nの打者の打率をA_nと書き、潜在的打率をAと書くとしよう。
 各打席で、安打が出る確率は独立で、nが十分大きいならば、
 打率A_nは、平均A、標準偏差s/(nの平方根)の正規分布に従う」

……って、なんのことやらさっぱりですね!
いずれ正規分布についても、もう少し説明できると思いますので、
そのときにまた、中心極限定理についても説明しましょう。
というわけで、今回はここで止めておくことにしたいと思います……。
  1. 2010/06/18(金) 20:00:00|
  2. 統計分析入門
  3. | トラックバック:0
  4. | コメント:0

統計分析入門(1):仮想3割打者の打率推移

こんにちは、カープファン学生です。
今日から少し統計分析のお話もやってみたいと思います。

なるべく野球の例も使っていきたいですが、どうなることやら……。

とりあえずがんばります!
ので、何かご意見などありましたら、ぜひぜひ、コメントよろしくお願いします。

さて、第1回の今日は、統計分析の入門ということで、「平均」のお話。
まずは野球の例ではないですが、保険のセールスマンを考えてみましょう。
仮りにこのセールスマンの毎月の成約数(契約を成立させた数)を見ると、
1月に10個、2月に12個、3月に8個だったとしましょう。
このとき平均成約数は(10+12+8)/3=10、ということになりますね。

平均成約数を見る目的は、なんでしょう?

それによって、彼のボーナスの額がわかるから?

……まあ、それもそうなんですが、一番の目的は、
彼がどの程度、契約をとってくる能力をもっているか、を測ることですね。

また、平均成約数を用いることで、今後の予測も(ある程度)行うことができます。
会社としては、どの程度の能力の営業マンが何人くらいいるのか、を知ることで、
大まかな収入予測を立てたり、ということができるわけです。


さて、保険の話でぼろが出る前に、野球の話に戻りましょう。
野球における平均の例といえば、やっぱり打率ですよね!
打率は、英語でBatting averageといいます。
averageという用語からもわかるように、打率は統計でいうところの「平均」の例です。
四死球や犠打などをどうするかで若干ごちゃごちゃしてますが、
基本的には、その打者が「どのくらいの確率で安打を打っているか」という指標です。

この打率を見る目的とは、何でしょうか?

それを見ることで、打者の来期の年棒増減が推定できるから?

……まあ、それもそうなんですが(?)、一番の目的は、その打者がどの程度、
安打を打つ確率を秘めているか、を測ることですね。
(以下これを、潜在的打率、とでも呼びましょう。その打者の潜在能力の指標なので)。
潜在的打率が高ければ、各打席、各試合で、きっといい働きをしてくれることでしょう。

さて、くどいようですが、打率と潜在的打率は、異なる概念だということに注意しておきましょう。
打率は、過去のデータをもとにしているので、それは「過去に起こったこと」の記述です。
「今までに」どれくらいの確率で安打を打ったか、ということです。
一方で潜在的打率は、いわばその選手の潜在的な能力をさしています。
明日の各打席、今後の各打席で、どのくらいの確率で安打を打つ能力を秘めているか、ということです。

このように2つは違う概念ですから、厳密には、
打率を用いて潜在的打率を推定するというのは、少しおかしな感じがするかもしれません。
しかし実は(当たり前といえば当たり前に聞こえるかもしれませんが)、
この2つには密接な関係があります。
それを示したのが、以下の統計学の定理(を打率に即して述べたもの)です:

「打数が十分大きくなると、打率はその打者の潜在的打率とほぼ一致する」

……色々と曖昧な書き方をしているので、これを定理と呼ぶのはちょっと心苦しいですが、
厳密な表現に関しては(追記)を参照いただければと思います。
大雑把に言うと、打数の多い打者の打率は、だいたい彼の潜在能力を表している、ということです。

実際にやってみたほうが分かりやすいかもしれませんね。
ここでは例として、潜在的打率が3割の(仮想的)打者、H選手を考えてみましょう!
さて、H選手は実在しない人物なので、彼のために、まずデータを作りましょう。
毎打席3割ジャストの確率で安打を打つと仮定して、
エクセルを使って乱数を発生させたところ、以下のようになりました:

(表1)
avg01.jpg

表1は、H選手の記念すべき開幕10打席を見ています。
2行目は、安打を打てば1、凡打で0を記録しました。3行目は通算打率です。

初打席は凡打ですが、続く2打席ヒット!
ただしその後は泣かず飛ばずで、10打席目までノーヒット。
打率は2割ちょうどまで下がってしまいました。
なんだかすぐに2軍に落とされそうなスタートですが、
その後色々とあって、最終的には400打席(だいたい1シーズン分)で、
打率.290に落ち着きました。表2は、区切りのいい打席時点でのH選手の打率です:

(表2)
avg02.jpg

なんとなく尻上がりな印象を受けるかもしれませんが、
実際には20打席目で3割回復したり、と思えば29打席目でほぼ2割に戻ったりと、
序盤はかなり変動しまくってます。打数が少ないので仕方ないですね。
中盤からはわりと安定して、アベレージヒッターとしての役割を存分に果たしてくれました。
表3の青線は、H選手の打率推移をグラフにしたものです:

(表3)
avg03.jpg

なお表3には、もう一つのグラフがありますが、
これは比較のために、別の仮想3割バッター、S選手の打率推移をグラフにしたものです。
見ていただければわかるように、最初の60打席くらいは二人とも仲良く2割台前半、
その後回復して、シーズン終わりの400打席目の時点では、
H選手は.290の打率S選手は.267くらいになりました。
S選手にとっては、ちょっと不運な年になってしまいましたね(あくまで仮想的打者です!)。

さて、この実験からわかったことは3つ。
1つ目は、打数を重ねるごとに、だいたい打率(データの平均)と、
潜在的打率(3割)が近づいていく
ことです。
2つ目は、特にシーズン序盤の、打数が少ない時期の打率は信用できないこと。
(この実験ではだいたい100打席目くらいで安定してきましたが、
 実際はどの程度見ればよいのでしょうか?……これは、次回のネタにしましょう!)

最後の3つ目は、400打席見ても、打率と潜在的打率は乖離する可能性がある、ということです。
H選手はだいたい3割に近づきましたが、まったく同じ条件で実験したS選手の例では、
打率は.267で、潜在的打率よりも.033も低くなってました。
(S選手は不運だったわけですが、こんなことは毎年のように起こることなのでしょうか?
 ……これも、次回のネタにしましょう!)

だいたいこの3つのことを、抽象的に述べたのが、先ほどの定理というやつです。
正式な名前は「大数の法則」といいます。参考までに。

さて、今回も長々とやってきましたが、この辺でおひらきです。
次回のテーマは「分散(と標準偏差)」の予定です。

分散や標準偏差は、平均と並んで統計では重要な指標です。
大雑把に言えば、データのばらつきを示す指標のひとつですが、それを用いることで、
(打率の例に即して言えば)打率と潜在的打率が、100打席目、ないし400打席目の時点で、
どの程度乖離する可能性があるか、という情報を与えてくれます。
言い方を代えると、打率という指標が、潜在的打率をどの程度正確に表しているか
という正確さの情報を与えてくれます。
セイバーメトリクスですらあまり注目してくれない分散と標準偏差ですが、
統計分析をするうえで平均と並んで重要な指標のはず。
というわけで、次回、「分散(と標準偏差)」の回を、お楽しみに~。

(追記1)
そうそう、日本ブログ村のロゴは、毎回記事にくっつけるのを忘れてしまうため、
ブログのいっちばん左上に置いておくことにしました。
もし面白かったという記事がありましたら、ぜひ押していただけると励みになります!

(追記2)
さて、今回も少しだけ理論編です。
今日紹介した定理「大数の法則」は、統計学の基本的な定理のひとつです。
基本的な定理によくある話ですが、ちゃんとやろうとすると、
数学的な準備がいろいろと必要になり、ブログでやるのはちょっと大変です。

というわけで、上では正確さを犠牲にして簡潔に述べたのですが、
ここで少しだけ補足をしておきましょう。
(とはいえ、これも基本的な定理によくある話ですが、
 wikipediaや個人でwebページを作ってらっしゃる方など、たくさんありますから、
 あとでそれらを探していただくのが一番手っ取り早いかもしれません)

打率に即して書くと、大数の法則は次のように表現されます:
「打数nの打者の打率をA_nと書き、彼の潜在的打率をAと書くとする。
このとき、A_nとAの差が x 以上離れる確率(xは任意の正の実数。0.1でも0.000001でも)は、
nが大きくなるにしたがって、0に収束する

大雑把に言うと、やっぱり「打率と潜在的打率が近づく」、という話なのですが、
注意としては、
1.この定理は「nが大きくなると云々」という内容なので、
  打数nが小さい場合については何も述べていない
2.nが大きくなっても、打率と潜在的打率が大きく乖離する確率は0にはならない
  (かなり小さくはなるかもしれないけど)
という2点ですね。
先ほどのS選手の場合は、まさに打数nがそれなりに大きい中で不運な結果が出てしまったわけですね。
  1. 2010/06/17(木) 20:10:37|
  2. 統計分析入門
  3. | トラックバック:0
  4. | コメント:0


ブログランキングに参加しています。
クリックいただけるとありがたいです。 ↓
にほんブログ村 野球ブログ 広島東洋カープへ

プロフィール

カープファン学生

Author:カープファン学生
大学で統計学を勉強しているので、それを使って、カープや楽天の選手のデータを眺めたりしていきたいです。

自分の備忘録もかねて、授業で習った内容を野球に応用して書いてみる、ということもやってみれたら面白いかなあと思っています(できる範囲で・・・)。

アメリカに住んでいるので、日本の野球はリアルタイムではなかなか見られませんが、試合の記録などを書きとめていければと思っています。

そんなカープファン学生をよろしくお願いします。コメント大歓迎です。

twitterを始めてみました。カープファン学生(carpfangakusei)です。こちらもよろしくお願いします!

カテゴリ

試合記録目次(2011) (1)
試合記録目次(2010) (1)
試合記録 (253)
先発:福井投手 (18)
先発:バリントン投手 (31)
先発:前田健太投手 (49)
先発:スタルツ投手 (12)
先発:ジオ投手 (20)
先発:篠田投手 (24)
先発:斉藤投手 (15)
先発:ソリアーノ投手 (8)
先発:今井投手 (15)
先発:大竹投手 (24)
先発:中田投手 (5)
先発:今村投手 (9)
先発:野村投手 (20)
先発:戸田投手 (1)
先発:中崎投手 (1)
分析 (23)
統計分析入門 (4)
得点力分析 (9)
マエケンも人の子? (2)
リリーフ陣分析 (7)
カープ (40)
その他 (13)
未分類 (18)
他球団の投手も見てみよう (9)
2010.CSを少し見てみよう (7)
就職活動 (1)
フランス (2)

最新記事

月別アーカイブ

最新コメント

最新トラックバック

リンク

このブログをリンクに追加する

検索フォーム

RSSリンクの表示

ブロとも申請フォーム

この人とブロともになる

powered by プロ野球Freak
powered by プロ野球Freak
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。