強化学習、はじめました

アドベントカレンダー、強化学習苦手の会 Advent Calendar 2020の23日目です。

目的

Goolgle Research Footballコンペに参加する

そして、マンチェスターでペップ・グアルディオラに会う。

やったこと

・Udemyの強化学習 with Pythonを受講

Multi-banditの話から始まって、DQNの実装までできる、初心者にやさしい講座でした。最近になって更新した部分(背景白)と更新されていない部分(背景青)の差が少しあるのが気になった(旧版だとPython2系を使っているのでObsoleteなメソッドを使っていたりする)。

・KaggleのKernelsを真似しながらUdemyでカバーしきれない手法を学ぶ

Udemyで基礎から積み上げていったのに対して、Kernelsを使った勉強方法はトップダウン的。結果的に上から下に降りず、どんどん難しいところに迷い込んだ感はある笑(例:Actors-Criticってなんだろう→A3Cってなんだ→PPOってなんだ)体系的に知識をつけて、次Kernelsを読むときにはもっと理解が出来ている状態にしておきたい。

・強化学習苦手の会への参加 (苦手の会の詳細はこちら)

グループを見つけて即Discordに登録した、そのスピード感は褒めても良い。

できなかったこと

・強化学習の本を読む

強化学習を勉強する時間があまりとれなかったため、実践的なアプローチに割く時間が多くなった。Suttonの原文PDFが無料公開されているらしいので、そのあたりからもう一度始めたい。

・強化学習苦手の会への参加

せっかく僕のためにあるような名前のグループがあるのに、もくもく会などのイベントに参加することができなかった。

結果

ペップに会う覚悟が足りなかった。

今後

じゃんけんコンペをベースに頑張る

・今回のコンペの振り返りをする(Winner’s solutionを読んだり)

・強化学習の本を読む

・強化学習苦手の会のもくもく会に参加する

・ポーカーの強化学習をしたいので、自作のEnvなどを作ってみる

◯◯の手法を勉強をしました!とか、◯◯の手法の中身はこんななってます!みたいなこと言えたら良かったのですが、力及ばず…。有用な記事を書けるように、これからがんばります。