強化学習、はじめました

アドベントカレンダー、強化学習苦手の会 Advent Calendar 2020の23日目です。

目的

Goolgle Research Footballコンペに参加する

そして、マンチェスターでペップ・グアルディオラに会う。

やったこと

Multi-banditの話から始まって、DQNの実装までできる、初心者にやさしい講座でした。最近になって更新した部分(背景白)と更新されていない部分(背景青)の差が少しあるのが気になった(旧版だとPython2系を使っているのでObsoleteなメソッドを使っていたりする)。

・KaggleのKernelsを真似しながらUdemyでカバーしきれない手法を学ぶ

Udemyで基礎から積み上げていったのに対して、Kernelsを使った勉強方法はトップダウン的。結果的に上から下に降りず、どんどん難しいところに迷い込んだ感はある笑（例:Actors-Criticってなんだろう→A3Cってなんだ→PPOってなんだ）体系的に知識をつけて、次Kernelsを読むときにはもっと理解が出来ている状態にしておきたい。

・強化学習苦手の会への参加 (苦手の会の詳細はこちら)

グループを見つけて即Discordに登録した、そのスピード感は褒めても良い。

できなかったこと

・強化学習の本を読む

強化学習を勉強する時間があまりとれなかったため、実践的なアプローチに割く時間が多くなった。Suttonの原文PDFが無料公開されているらしいので、そのあたりからもう一度始めたい。

・強化学習苦手の会への参加

せっかく僕のためにあるような名前のグループがあるのに、もくもく会などのイベントに参加することができなかった。

結果

ペップに会う覚悟が足りなかった。

今後

じゃんけんコンペをベースに頑張る

・今回のコンペの振り返りをする（Winner’s solutionを読んだり）

・強化学習の本を読む

・強化学習苦手の会のもくもく会に参加する

・ポーカーの強化学習をしたいので、自作のEnvなどを作ってみる

◯◯の手法を勉強をしました！とか、◯◯の手法の中身はこんななってます！みたいなこと言えたら良かったのですが、力及ばず…。有用な記事を書けるように、これからがんばります。

Concast

強化学習、はじめました

目的

やったこと

できなかったこと

結果

今後

いいね:

目的

やったこと

できなかったこと

結果

今後

共有:

いいね: