jotunの頭の中

常同性の解釈

常同性は強化学習の枠組みではどのように解釈できるか？

強化学習における予測誤差は、学習に反映されて期待値（状態や行動の価値）を上げてしまうので、ドーパミン放出を永続することはできない。

それでも学習率が低ければ、予測誤差の総和が大きくなるかもしれない。

しかし「予測誤差を最大化する」という仕組みで動いているわけではないかもしれない。

予測誤差の学習への関与だけを考えれば、学習率が高いほど、行動は強化されやすくなる。