決断と逆温度 - jotunの頭の中

某先生の理論では、大脳基底核系が強化学習様のアルゴリズムで動いており、ノルアドレナリンは逆温度に相当するそうだ。

もちろん大雑把な理論で突っ込みどころはいろいろあるのだが、割と面白い。

逆温度のいうのはソフトマックスの乗数の係数βで、βが大きいほどgreedyに振舞う（ランダムネスが減る）ことになる。

某氏の理論ではノルアドレナリンは強化学習の行動決定の過程にのみ関わり、学習の過程には直接関与しない。

（もちろん、行動のランダムネスが高ければより多くの選択肢を学習することになるので、間接的に学習にも寄与するのだが）

ただ実際の人間の行動に当てはめた場合、いくつか問題があるように思う。

そもそも強化学習は「行動決定の頻度」は一定であり、「行動の積極性」は考慮されていない。

「行動の積極性」をモデルに組み込むとしたら、「行動」の一つとして「何もしない」という選択肢を組み込むことになるだろう。（実際にそういう研究はある）

「何もしない」という選択肢は報酬に繋がらなければコスト（負の報酬）もかからない選択肢ということになる。

ただそういう設定にしてしまうと、逆温度がそのまま行動の積極性に繋がることになる。

実際の人間の場合、「行動の積極性」と「行動の貪欲さ（確実さ、保守的傾向）」は同じものだろうか？

（ちなみにNivやMcClureは動的計画法や閾値を含む強化学習でモデル化し、ドーパミンの効果で説明しようとしている）

直接関係ないけど、行動もしくは状態の価値を０近辺に規格化するとか、閾値を設定してその値を価値から引くとかすれば、「閾値を越えた範囲でほぼランダム」みたいな行動決定法も実現できるかもね。

…あ、でも０近辺にしても結局価値の差だけが効いてくるのか。

としたら価値をシグモイド関数を通した後にソフトマックスで処理するとか。