確率と報酬予測誤差
例えば「100%の確率で100円もらえる」のも「50%の確率で200円もらえる」のも「10%の確率で1000円もらえる」のも期待値は同じだが、主観的な印象は異なるはずである。
「100%の確率で100円もらえる」の場合は、それを学習してしまえば一切報酬予測誤差は生じなくなる。
しかし「50%の確率で200円もらえる」や「10%の確率で1000円もらえる」の場合には、もらえたとしてももらえなかったとしても予測誤差が生じる。
例えば「100%の確率で100円もらえる」のも「50%の確率で200円もらえる」のも「10%の確率で1000円もらえる」のも期待値は同じだが、主観的な印象は異なるはずである。
「100%の確率で100円もらえる」の場合は、それを学習してしまえば一切報酬予測誤差は生じなくなる。
しかし「50%の確率で200円もらえる」や「10%の確率で1000円もらえる」の場合には、もらえたとしてももらえなかったとしても予測誤差が生じる。