こんにちは!今回は前回記事の続きですので、細かい説明についてはvol1をどうぞ。
↓前回記事
前回の分析により、どうもレギュラーシーズンの順位予測にはOFFRTGとDEFRTGが大いに役立ちそうであるということが分かりました。
まず、改めて実順位と予想順位のグラフを見てみましょう。
ATL | BOS | BRN | CHA | CHI | CLE | DAL | DEN | DET | GSW |
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
HOU | IND | LAC | LAL | MEM | MIA | MIL | MIN | NOP | NYK |
10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 |
OKC | ORL | PHI | PHX | POR | SAC | SAS | TOR | UTA | WAS |
20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 |
数字とチームの対応表も載せます。
このグラフを見ると、ATL、BRN、DAL、DEN、PHX、PORの予想順位が実順位よりも明らかに低くなっています。一方、DET、HOU、NOP、TORの予想順位は高くなってますね。この誤差がなぜ生まれるのかを考察してみたいところではありますが、それぞれのチームについてあれこれ実験していると時間がかかりすぎるので、今回はやりません。
そこで、今回議論していくのは、「OFFRTGやDEFRTGは順位予測にどんな影響を与えているのか」についてです。
具体的には、順位予測をするためのデータセットの中からOFFRTGやDEFRTGを取り去った場合、予測がどのように変化するのかを観察してみました。
実際に見ていただいた方が早そうなので、グラフを載せます。
画像のキャプションにあるように、データセットの中からDEFRTGのみを取り去ってランダムフォレストしてみました。すなわち、DEFRTGのみを完全に無視して予測した場合どうなるのかというものを表しています。
見てわかる通り、全体的に実順位より予測順位の方が高くなりました。ATL、BRNなどの予想順位が軒並みはね上がっており、このことからこれらの "予想順位<実順位" だったチームの誤差の理由はDEFRTGにあるのかもしれないと仮説を立てることができます。今回はこれ以上考察しませんけど。
全体的に予想順位が高まっていることは、近年の平均OFFRTGの上昇を如実に表しているといえます。
~~~~~~~~~~~~~~~~~~~~~
―平均OFFRTGの推移―
20-21シーズンのOFFRTG: 115.5655 19-20シーズンのOFFRTG: 113.7759 18-19シーズンのOFFRTG: 113.5034 17-18シーズンのOFFRTG: 111.5586 16-17シーズンのOFFRTG: 111.8862 15-16シーズンのOFFRTG: 109.2000
~~~~~~~~~~~~~~~~~~~~~
数字だけを見ても分かる程の変化です。こんな変化の中OFFRTGを重要視して順位予測してたらそりゃあ上振れします。
ちなみに、データの貢献度はOFFRTGが0.2238となり、思ったほど一強になりませんでした。EFG%の貢献度が高まり、EFG%とTS%がそれぞれ0.1442、0.1345になったため、この辺も一考の余地ありかもしれません。また、モデルの決定計数は0.5226でした。
次はOFFRTGのみを取り去ってランダムフォレストしてみましょう。分析結果がこちらです。
OFFRTGとDEFRTGのどちらも残したグラフ(一番最初のグラフ)とそんなに変わらない結果になりました。"予想順位<実順位" のチームはそのままに、"予想順位>実順位" であるチームもほぼそのままになりました。
なお、近年のDEFRTGの推移は以下のようになっています。
~~~~~~~~~~~~~~~~~~~~~
―平均DEFRTGの推移―
20-21シーズンのDEFRTG: 115.5483 19-20シーズンのDEFRTG: 113.9517 18-19シーズンのDEFRTG: 113.5138 17-18シーズンのDEFRTG: 111.5586 16-17シーズンのDEFRTG: 111.8724 15-16シーズンのDEFRTG: 109.1759
~~~~~~~~~~~~~~~~~~~~~
この通りOFFRTGの上昇に付随してDEFRTGも上昇しています。
OFFRTGを取り去った分析に大きな変化が少ないとはいえ違いはあり、例えばBOS(チーム1)やSAC(チーム25)の予想順位は下がりました。これについて考察すると、20-21シーズンのBOSはOFFRTGが10位でDEFRTGが13位という、バランスの取れたスタッツとなっていました。このとき、OFFRTGを無視した場合は近年の平均DEFRTGの上昇の影響を受けて予想順位が下がってしまいます。SACはDEFRTGがドンケツなので、DEFRTGを重視していたらそりゃあ予想順位下がるっていうものです。
LAL(チーム13)は逆に予想順位が上がっています。LALのDEFRTGは非常に優れておりリーグ1位だったため、予想順位が高まるわけです。
OFFRTG抜きの場合、データの貢献度はDEFRTGが0.3728で、TS%が0.2776、EFG%が0.1323となりました。EFG%の貢献度はDEFRTG、OFFRTG、TS%以外のスタッツよりは圧倒的に大きいことが分かります。モデルの決定計数は0.7348でまずまずでした。
まとめです。
DEFRTGを取り去ったの場合の予測、OFFRTGを取り去ったの場合の予測をしたところ、前者の場合は予測順位が全体的に上昇し、後者はそこまで変化しないという結果が得られました。また、"予想順位<実順位" となるチームの予測誤差の発生理由はDEFRTGにありそうなことが分かりました。しかしDEFRTGを取り去ったの場合の予測モデルの精度は悪化し、OFFRTGを取り去ったの場合の予測モデルの精度はまずまずでした。
元々OFFRTGよりもDEFRTGの貢献度の方が高いという結果が得られていた中で、OFFRTGを取り去ったモデルの精度が比較的高かったのは予想できましたが、DEFRTGを取り去ったモデルの精度の悪化具合がなかなか興味深いです。ペースが上がっているなり、シュート効率が上がっているなり、何かしらの理由があってOFFRTGが上昇傾向なのだと思うのですが、モデル作成の際にその辺を上手く拾い切れていないのかもしれません。
最後に。これ以上分析や考察を続けていけるかは分かりませんが、暇なときにじっくり進めていこうと思います。しかし、
シーズン始まっちゃうんだよ!!
これからは試合の感想とか選手へのコメントとかをしていきたいので、ひとまず分析日記は終わりです。夏のオフシーズンの自由研究としてここに終わり、提出したいと思います。
シーズン始まる前に簡単な展望とか選手への一言とか書きたいんですけども、書く時間があるかどうか...
頑張ります。
それでは。