現状維持バイアスとか行動の類似性とか

例えば一般的な強化学習の枠組みだと、行動1〜4のうちいずれかを選ぶ場合、行動1〜4の価値をソフトマックスかなにかで処理して選択確率を算出する。

この方法だと前回何を選択したかは次回の選択に反映されない。

しかし人間の行動は、しばしば前回と同じ行動が選択されやすくなる。

より「人間らしい」選択を行うためには、前回選択したものの選択確率を上げるべきであろう。

このときもう一つ考慮すべきは「行動の類似性」で、例えば前回選択した行動が1で、2、3、4のうち、3と4は1と無縁だが、2は1に類似した行動だとする。

この場合、行動1だけでなく、行動2の選択確率も類似度に応じて上げるべきであろう。