即時の報酬が得られない場合に報酬の代替となるものは何か

報酬がすぐに得られるなら、そのために行動を起こすことは容易である。

しかし、例えば数ヵ月後の大学受験に向けて勉強している場合、即座に何らかの報酬が得られるわけではない。

もちろん、過去の経験から、現在の勉強によって大学合格が近付くはずだという予測は立つかもしれない。

それは予測によって疑似的な報酬を作り出していると解釈することもできるし、過去の経験に基づく報酬の「余韻」を、小分けにして現在の行動の糧にしていると捉えることもできる。



強化学習の枠組みで大雑把に捉えると、志望校合格なりテストでの好成績なりを報酬と考えた場合、「勉強する」ことは報酬によって価値を与えられた行動だと言える。

つまり、報酬がなくてもその行動自体に価値が認識されうる。

ただし、報酬を伴わずにその行動のみが生起していると、次第にその価値は失われてしまう。


「大学合格」に向けて勉強する場合、過去に同様の報酬(大学合格)は普通ないわけだが、別の報酬(例えばテストでいい点数を取って褒められる)によって勉強に価値が付与されていれば、その価値を利用することは可能であろう。

もちろん、永続するわけではないので、適宜似たような経験(模試で上位になって褒められるとか)をすることで、行動の価値を維持する必要がある。