2012-08-28から1日間の記事一覧
負の報酬予測誤差が生じた時に、どの程度の学習率・割引率で価値の更新に用いるか、という部分には個人差があると思うし、性格に大きな影響を及ぼすと思う。人間の学習が強化学習の枠組みに(大雑把に)沿うと仮定した場合、おそらく学習率や割引率は予測誤…
負の報酬予測誤差が生じた時に、どの程度の学習率・割引率で価値の更新に用いるか、という部分には個人差があると思うし、性格に大きな影響を及ぼすと思う。人間の学習が強化学習の枠組みに(大雑把に)沿うと仮定した場合、おそらく学習率や割引率は予測誤…