常同性の解釈

常同性は強化学習の枠組みではどのように解釈できるか?

強化学習における予測誤差は、学習に反映されて期待値(状態や行動の価値)を上げてしまうので、ドーパミン放出を永続することはできない。

それでも学習率が低ければ、予測誤差の総和が大きくなるかもしれない。


しかし「予測誤差を最大化する」という仕組みで動いているわけではないかもしれない。

予測誤差の学習への関与だけを考えれば、学習率が高いほど、行動は強化されやすくなる。