確実な予測の形成と報酬への反応性の消失

強化学習の理論に基づくと、完全に学習されたものに対しては、報酬の予測に十分な情報が揃った以降は、(報酬を得ても)予測誤差が生じなくなる。

全く同じ状況を学習するのであれば、学習率を大きくすればすぐに学習は完了するが、現実には「全く同じ状況」などなかなか起こらない。