2013-08-01から1ヶ月間の記事一覧

無頼とか大胆な行動とか

好ましい結果に繋がりそうにない行動をなぜ好んで取ろうとするのか?一つの理由は、期待値が低いものをまず実行すれば、その後は常に正の予測誤差が生じるからだと思う。

報酬感とは

一つの解釈は、放出されるオピオイドまたはドーパミンの総量だが。 個人的には、(一定以上の)ドーパミン放出の持続時間ではないかと思っている。そしてそれに寄与するのは、「正の予測誤差を生じ続けるもの」だ。 まぁ結局は「総量」なのかもしれないが、…

上達と予測誤差

例えば狩りなどで獲物(報酬)が得られるかどうかは、技術に依存する。技術が常に向上するとすれば、報酬の得られる確率も次第に上がっていく。少しマクロに(一度の狩りではなく複数回の狩りをまとめて)捉えれば、一日の狩りで得られる獲物の量は、次第に…

論理と予測誤差

必要条件や十分条件といったものと、予測誤差の関係について考えてみる。ここでは、純粋な論理というより、「報酬獲得」という事象の条件として考える。 「必要条件」は必ずしも報酬を伴わないので、一見負の予測誤差を伴いやすいように思える。しかしそれゆ…

動的な行動の解釈

強化学習における行動の捉え方は静的である。行動実行後に報酬および価値の変化から行動を評価し、その後で次の行動を価値の比較によって決める。しかし実際の行動は、「勢い」などが効いてくる。 ソフトマックスによる行動選択よりは、報酬予測誤差をシグモ…

欠乏による意識の変容

同程度の報酬価値を持つものでも、一方が「それが手に入らなくて困った」ものだと、報酬価値が高く見積もられる場合が多い。「手に入らなくて困った」という経験は、報酬の獲得ではないので、本来行動の価値を高めるものではない。にも拘わらず価値を高めて…

強化学習における「必要性」の認識

通常、強化学習においては、報酬に先行するものは何であれ、強化の対象となる。しかし現実の生活においては、常に報酬に先行するものであっても、報酬との因果関係が希薄なものは強化の対象になりにくい。ではその「因果関係」はどのようにして認識されるの…

二次強化子になりやすいもの

以前にも書いた気がするが。 例えば、「金(かね)」が強力な強化子だが、生理的な効果を持つわけではないので、二次強化子だろう。それによって食べ物を買ったり、その他のサービスを受けたりできる。「金」が強力な理由として、1.様々な財と交換できる2…

ゲームにおける報酬と行動

ゲームにおいて何が報酬になっているかは明確ではない。ゲームクリアが疑似的な報酬になっているのは確かだろうが、それだけではないだろう。ゲーム中に流れる映像・音楽は全て報酬になりえるし、RPGなら個々の戦闘での経験値や金が報酬になっている可能性は…

報酬を得る対象を限定する意義

人間が報酬を最大化するために行動するのは自然なことである。しかし、報酬を得る対象は必ずしも同一である必要はないし、むしろ複数の対象から得た方が費用対効果は高い場合が多い。にも拘わらず、単一の対象、または狭い範囲のものから報酬を得続けようと…

「よりよい状態」の想起で価値が霧散する機構

「よりよい状態」でも現状や現在の目的の価値が霧散するし、「より楽な方法」でも同様である。

「容易に実現しない」ことで価値が持続する機構

物事の価値は、必ずしもその報酬価値を直接反映するわけではない。しばしば「希少性」や「難易度」や「労力」による修飾を受ける。しかし、報酬価値の低いものであれば、いくらそれに希少性があろうが、本来さほどの価値はないはずである。希少性などが価値…

報酬とsalienceのループ

報酬を得た場合、それは先行する何らかの刺激に割り当てられるわけだが、同等の報酬を得るにしても、割り当てるべき刺激が豊富な状況もあれば、ほとんど見当たらないような状況もある。割り当てるべき刺激がない状況で、報酬がどのように処理されるか不明だ…

差異と優劣の干渉

差異と優劣が干渉し合うケースはしばしばみられる。具体的にどのようなものかというと、例えば、「奇抜な格好をしている人間は目障りだが、飛びぬけて容姿が優れていれば、さらに好感度が高まる」といった話である。一般に、通常のものからの乖離は、負の評…

オリジナリティとか自己同一性とか個性とか

典型的な例としては、思春期の奇抜な言動とか、奇を衒った進路選択など。「目立ちたいからではないか」という解釈をされる場合があるが、必ずしもそれだけではないだろう。 もし一切個性がない人間がいたら、どのような問題が生じるのか?必ずしも対人関係に…

オリジナリティについて

例えばテレビゲームをやる場合、その最終形はほぼ画一的なものとなるが、それでも多少個人差が生じる場合がある。そこにある種の満足感を感じる人間がいるが、それは何に基づくのか? 一つの解釈は、差異が生じる限り、自分に都合のいい評価基準を設定すれば…

差異と優劣について

優劣はその名の通り、複数のものの間に上下関係をつけるわけだが、差異はそれ自体で、どちらが上かを決めるものではない。動物の行動を考える上で、「優劣」は報酬の価値の多寡として解釈できるだろう。では「差異」はどのような意味を持つものなのか? もち…

比較の頻度とか対象とか影響の強さとか

人間は誰しも比較で物を考えると思うけど。ただ、思考のどの程度が「比較」によるかは個人差がある。

ドーパミン放出を持続させる方法

「ドーパミン=報酬予測誤差」仮説に基づいて。もちろん、報酬の予測を下げれば予測誤差を高くすることができるが、そのためには不快な経験をする必要があるので、その方法はナンセンスである。 予測誤差を保つためには、報酬ではなく予測の材料となる刺激の…