労力と報酬のバランス

同じ報酬が得られるのなら、労力は小さい方がいい。

それは当然の発想だが、例えば冗長な方法で報酬が得られるようになったとして、「最低限の方法で獲得しよう」という発想はどのようにして生じるのか。

単純な強化学習の枠組みでは、そういう発想は説明できないのではないか。



一つの解釈は、報酬自体の価値が(飽きなどで)次第に低下した場合、獲得までの労力が大きければ報酬獲得自体をやめることになるが、「もう少し労力が小さければ報酬の価値が勝る」という状態になれば、労力を削減する理由ができるということである。

これは、労力の削減をいつまで経っても考えない人間がいることとも整合する。