2013-07-28から1日間の記事一覧

報酬感は予測誤差だけで決まるか？

もし人間がドーパミンに駆り立てられて行動するなら、得られることが確定している報酬ではドーパミン放出を持続できないので、いずれはどんな報酬にも興味を失ってしまう。もっとも、ドーパミン放出は学習のためのものと考えれば、報酬を学習するまでの段階…

常同性は強化学習の枠組みではどのように解釈できるか？強化学習における予測誤差は、学習に反映されて期待値（状態や行動の価値）を上げてしまうので、ドーパミン放出を永続することはできない。それでも学習率が低ければ、予測誤差の総和が大きくなるかも…