2013-08-04から1日間の記事一覧

即時の報酬が得られない場合に報酬の代替となるものは何か

報酬がすぐに得られるなら、そのために行動を起こすことは容易である。しかし、例えば数ヵ月後の大学受験に向けて勉強している場合、即座に何らかの報酬が得られるわけではない。もちろん、過去の経験から、現在の勉強によって大学合格が近付くはずだという…

目的と手段と状態の変化

同じ行動をして、同じ結果を得るにしても、それが明確な目的の下で行われたかどうかで、全体的な満足度は変わってくる。「目的下での手段(の実行)」が大きな価値を持つのは何故だろうか? そもそも「目的」とは何か?行動だけを見れば報酬の獲得が「目的」…

完璧主義とか網羅とか

たぶん四、五回は書いたエントリだと思うが。ようやく自分なりに結論らしきものが出たので。 何かを選択する時に、選択肢を「網羅」しなければ気が済まない理由は、網羅して最善のものを選べば、それより「よいもの」が決して出てこないので、そういう「より…

労力と報酬のバランス

同じ報酬が得られるのなら、労力は小さい方がいい。それは当然の発想だが、例えば冗長な方法で報酬が得られるようになったとして、「最低限の方法で獲得しよう」という発想はどのようにして生じるのか。単純な強化学習の枠組みでは、そういう発想は説明でき…

無頼とか大胆な行動とか

好ましい結果に繋がりそうにない行動をなぜ好んで取ろうとするのか?一つの理由は、期待値が低いものをまず実行すれば、その後は常に正の予測誤差が生じるからだと思う。

報酬感とは

一つの解釈は、放出されるオピオイドまたはドーパミンの総量だが。 個人的には、(一定以上の)ドーパミン放出の持続時間ではないかと思っている。そしてそれに寄与するのは、「正の予測誤差を生じ続けるもの」だ。 まぁ結局は「総量」なのかもしれないが、…

上達と予測誤差

例えば狩りなどで獲物(報酬)が得られるかどうかは、技術に依存する。技術が常に向上するとすれば、報酬の得られる確率も次第に上がっていく。少しマクロに(一度の狩りではなく複数回の狩りをまとめて)捉えれば、一日の狩りで得られる獲物の量は、次第に…

論理と予測誤差

必要条件や十分条件といったものと、予測誤差の関係について考えてみる。ここでは、純粋な論理というより、「報酬獲得」という事象の条件として考える。 「必要条件」は必ずしも報酬を伴わないので、一見負の予測誤差を伴いやすいように思える。しかしそれゆ…

動的な行動の解釈

強化学習における行動の捉え方は静的である。行動実行後に報酬および価値の変化から行動を評価し、その後で次の行動を価値の比較によって決める。しかし実際の行動は、「勢い」などが効いてくる。 ソフトマックスによる行動選択よりは、報酬予測誤差をシグモ…

欠乏による意識の変容

同程度の報酬価値を持つものでも、一方が「それが手に入らなくて困った」ものだと、報酬価値が高く見積もられる場合が多い。「手に入らなくて困った」という経験は、報酬の獲得ではないので、本来行動の価値を高めるものではない。にも拘わらず価値を高めて…

強化学習における「必要性」の認識

通常、強化学習においては、報酬に先行するものは何であれ、強化の対象となる。しかし現実の生活においては、常に報酬に先行するものであっても、報酬との因果関係が希薄なものは強化の対象になりにくい。ではその「因果関係」はどのようにして認識されるの…

二次強化子になりやすいもの

以前にも書いた気がするが。 例えば、「金(かね)」が強力な強化子だが、生理的な効果を持つわけではないので、二次強化子だろう。それによって食べ物を買ったり、その他のサービスを受けたりできる。「金」が強力な理由として、1.様々な財と交換できる2…

ゲームにおける報酬と行動

ゲームにおいて何が報酬になっているかは明確ではない。ゲームクリアが疑似的な報酬になっているのは確かだろうが、それだけではないだろう。ゲーム中に流れる映像・音楽は全て報酬になりえるし、RPGなら個々の戦闘での経験値や金が報酬になっている可能性は…