jotunの頭の中

確実な予測の形成と報酬への反応性の消失

強化学習の理論に基づくと、完全に学習されたものに対しては、報酬の予測に十分な情報が揃った以降は、（報酬を得ても）予測誤差が生じなくなる。

全く同じ状況を学習するのであれば、学習率を大きくすればすぐに学習は完了するが、現実には「全く同じ状況」などなかなか起こらない。