生物学的にありそうな行動選択のアルゴリズム
やはり行動の価値によるソフトマックスよりも、個々の行動について実行後のδを算出してその多寡で実行するかしないか決める(どれを実行すべきか決めるわけではない)方がありそうである。
この手のアルゴリズムは、割と早い段階で提案されていたが。
この場合の「行動の価値」は、漠然とした有望さではなく、その状況で実行した場合にどの程度状況が改善されるかというものである。
やるべきことが複数ある場合、他の全てを実行して「あと一手」という状況になれば、行動を起こすことによる状況の変化が大きくなるので、行動の実行は容易である。
逆にそこに至るまでは、実行したところですぐに報酬は得られないので、実行は困難である。
過去の学習に基づいて、中間的な状況に価値を付与し、その価値に基づいて実行するしかない。