アドベントカレンダー、強化学習苦手の会 Advent Calendar 2020の23日目です。
目的
Goolgle Research Footballコンペに参加する
そして、マンチェスターでペップ・グアルディオラに会う。
やったこと
・Udemyの強化学習 with Pythonを受講
Multi-banditの話から始まって、DQNの実装までできる、初心者にやさしい講座でした。最近になって更新した部分(背景白)と更新されていない部分(背景青)の差が少しあるのが気になった(旧版だとPython2系を使っているのでObsoleteなメソッドを使っていたりする)。
・KaggleのKernelsを真似しながらUdemyでカバーしきれない手法を学ぶ
Udemyで基礎から積み上げていったのに対して、Kernelsを使った勉強方法はトップダウン的。結果的に上から下に降りず、どんどん難しいところに迷い込んだ感はある笑(例:Actors-Criticってなんだろう→A3Cってなんだ→PPOってなんだ)体系的に知識をつけて、次Kernelsを読むときにはもっと理解が出来ている状態にしておきたい。
・強化学習苦手の会への参加 (苦手の会の詳細はこちら)
グループを見つけて即Discordに登録した、そのスピード感は褒めても良い。
できなかったこと
・強化学習の本を読む
強化学習を勉強する時間があまりとれなかったため、実践的なアプローチに割く時間が多くなった。Suttonの原文PDFが無料公開されているらしいので、そのあたりからもう一度始めたい。
・強化学習苦手の会への参加
せっかく僕のためにあるような名前のグループがあるのに、もくもく会などのイベントに参加することができなかった。
結果
ペップに会う覚悟が足りなかった。
今後
じゃんけんコンペをベースに頑張る
・今回のコンペの振り返りをする(Winner’s solutionを読んだり)
・強化学習の本を読む
・強化学習苦手の会のもくもく会に参加する
・ポーカーの強化学習をしたいので、自作のEnvなどを作ってみる
◯◯の手法を勉強をしました!とか、◯◯の手法の中身はこんななってます!みたいなこと言えたら良かったのですが、力及ばず…。有用な記事を書けるように、これからがんばります。