負の報酬予測誤差と性格

負の報酬予測誤差が生じた時に、どの程度の学習率・割引率で価値の更新に用いるか、という部分には個人差があると思うし、性格に大きな影響を及ぼすと思う。

人間の学習が強化学習の枠組みに(大雑把に)沿うと仮定した場合、おそらく学習率や割引率は予測誤差が正の時と負の時で異なる値に設定されているはずである。


負の報酬予測誤差が生じた場合に、大きな学習率と割引因子によって、drasticに価値の更新を行った場合、その個体はおそらく保守的な振舞いをする。