2013-07-28 常同性の解釈 常同性は強化学習の枠組みではどのように解釈できるか?強化学習における予測誤差は、学習に反映されて期待値(状態や行動の価値)を上げてしまうので、ドーパミン放出を永続することはできない。それでも学習率が低ければ、予測誤差の総和が大きくなるかもしれない。 しかし「予測誤差を最大化する」という仕組みで動いているわけではないかもしれない。予測誤差の学習への関与だけを考えれば、学習率が高いほど、行動は強化されやすくなる。