過去の失敗と予測への反映
単純な強化の枠組みだと、行動を起こしても報酬が得られなければ、行動の価値は下がり、最終的には「消去」される。
しかし現実には、完全に同一の状況や完全に同一の行動というのは存在せず、過去の失敗も状況と行動の類似性に応じて、いくらか弱められた状態で効果を及ぼす。
単純な強化の枠組みだと、行動を起こしても報酬が得られなければ、行動の価値は下がり、最終的には「消去」される。
しかし現実には、完全に同一の状況や完全に同一の行動というのは存在せず、過去の失敗も状況と行動の類似性に応じて、いくらか弱められた状態で効果を及ぼす。