確率と報酬予測誤差

例えば「100%の確率で100円もらえる」のも「50%の確率で200円もらえる」のも「10%の確率で1000円もらえる」のも期待値は同じだが、主観的な印象は異なるはずである。

「100%の確率で100円もらえる」の場合は、それを学習してしまえば一切報酬予測誤差は生じなくなる。

しかし「50%の確率で200円もらえる」や「10%の確率で1000円もらえる」の場合には、もらえたとしてももらえなかったとしても予測誤差が生じる。