2013-08-01から1ヶ月間の記事一覧
例えば子供の行動に対して、親が力づくでも止めるという姿勢を示せば、子供の行動が抑止されるのは理解しやすい。しかし、「親が小言を言う」だけで、子供の行動が抑止される場合があるのはなぜか? 子供が親の機嫌を過度に伺って、少しでも不機嫌になるなら…
「類似」であることを認識するには、関心を持った対象から要素を抽出し、その要素を別の対象にも見出すことが必要になる。
ある時価値を感じたものでも、後になったら価値を感じないということがある。また価値を感じていたとしても、別のもので完全に代替できるなどの理由で、そのものを保持しておく必要性を感じないこともある。 「価値を感じなくなる」のはなぜか?また、ものを…
当然の話だが、注目する対象を変えれば、異なる刺激を得ることができる。逆に注目する対象を固定してしまうと、得られる刺激に変化が乏しく飽きてしまうことが多いが、注目する対象は固定したまま様々な刺激が得られる場合もある。例えば、注目する対象をあ…
何か好ましいものを手に入れても、それを失うことが恐怖になるなら、全体としてよいことなのか分からない。行動の場合も同様で、ある行動で報酬を得たとしても、その行動が強迫的になってしまうのなら、あまり好ましいとは言えない。何かを望んでそれを手に…
何か気に入ったものができると、それに似たものも欲しがるようになる。例えば、ある作家の作品にハマったとして、同じ作家の別の作品も買いたくなるとか。あるいは、ある曲を好んで聴いていたとして、そのバージョン違いが欲しくなるとか。 単純な強化の枠組…
以前のエントリでは、「正の報酬予測誤差を連続させるため」という結論だった。それもあるとは思うが、目的間の関連性も重要ではないかと思う。 どういうことかと言うと、人間には達成可能な目的と不可能な目的があり、不可能なものは無視すればいいわけだが…
先行刺激の後に報酬が与えられれば、先行刺激に対してドーパミン系が反応するようになる。強化学習的には、先行刺激に対応する状態に価値が付与されることになる。 この場合、先行刺激に対して報酬系が賦活されるようになるが、同時に報酬獲得まで行動を遂行…
さしたる報酬が得られなければ、その時その時で手に入りそうなものを求めて動くのだろうが。もし、ある分野でコンスタントに報酬を得る術を身につけたら、ひたすらそればかりやるかもしれない。
基本的に生物はストレスを避けたがる。報酬が約束されればストレスを引き受ける場合もあるが、その条件は何か?単純に考えるなら、報酬とストレスを天秤にかけて、報酬が大きければストレスを引き受ける、というものだが。
例えば、特定の作家の小説を集めていたとする。「作家」に着目して作品を集めるのは一般的だが、本来「作家名」は作品の内容とは関係ないはずである。もちろん、同じ作家であれば似た作品を書くという理由はあるだろうが。 小説を集める基準として、特定の出…
例えば休日を過ごす時、特に何か用事がなければ、家事をするとか勉強をするとか、有効な時間の使い方があるわけだが、常に何らかの趣味に没頭していると、そういったことに気が回らなくなる。「先のことを考えて動く」ためには、「先の展開を予測し、必要な…
何らかの目的があってその方法を思案し、アイディアが浮かんだとする。そのアイディアは非常に有望なものかもしれないし、まるで使いものにならないかもしれない。 アイディアが有望かどうか、実際に実行するかどうか、という問題はあるが、まず浮かんだアイ…
人間が行動を起こすかどうかは、行動の結果報酬が得られるかどうかということだけでなく、行動を起こさない状態で報酬が得られるかどうかにも依存する。単純に行動を起こした時の報酬(×獲得確率)から行動を起こさなかった時の報酬(×獲得確率)を引いて、…
状態ないし行動の価値を決めて、その大きなものを選択するというのは、すでに状態や行動の価値が学習されているので、その場の判断というよりそれまでの学習で半ば自動的に行動が決まる感じだろう。それに対して、ある行動を選択した時に生じるであろうδを計…
それは決して「メタな判断」というものではなく、何らかの学習の結果、自然な行動として生起しているのだろう。ドーパミンは学習に関与し、放出量が大きければ学習への関与も大きくなるが、単純に一時的な放出量に比例するというものでもないのだろう。それ…
おそらく完璧主義は、負の予測誤差が生じることへの病的な恐怖感から来ていると思う。それはある種の依存症に近い。 重要なのは、何か瑕疵ができてしまったとしても、一時的に報酬感がなくなることにさえ耐えられれば、特に問題はないということだ。
いすれは自分に合ったものを見つけてコミットすべきなんだろうが、ある程度ランダムに探索することも重要である。どの程度探索を行うべきかは非常に難しい問題で、最適な度合いを見極めている人間などまずいないだろう。 最終的に何かにコミットした場合に、…
行動が強化されるまでにはかなりの時間を要するが。例えば、ある報酬が、行動を起こさなくても手に入ると分かった時、行動もモチベーションは短時間で大幅に低下する。これはどのような機構によるものか?
明確な報酬が与えられなくとも、自分の行動がダイレクトの環境に反映される状況なら、行動のモチベーションは持続しやすい。「外部の環境の変化」がある種の報酬になっている可能性もあるが。
基本的に行動に要する労力は、負の報酬として報酬から差し引かれるし、労力があまりに大きい行動は実行されない。しかし、全く行動を必要としない状況では、報酬が得られたとしても満足感はさほど大きくない。行動の労力には最適な値があるのだろうか?ある…
やはり行動の価値によるソフトマックスよりも、個々の行動について実行後のδを算出してその多寡で実行するかしないか決める(どれを実行すべきか決めるわけではない)方がありそうである。この手のアルゴリズムは、割と早い段階で提案されていたが。 この場…
強化学習のアルゴリズムとしては、どちらも似たようなパラメータだが、人間の場合はどのコードのされ方にかなり違いがあるのではなかろうか。 「状態」は、外部の環境からの刺激を受けて皮質にコードされるという解釈が多い。「行動」は、(基底核全体のルー…
状況が徐々に好転していくことは好ましいが、それが自動的なものか、自分の行動によるものかで満足度は異なるだろう。おそらく自動的なものよりも、自分の行動に基づくものの方が大きいはずである。 本当に状況の好転が自分の行動に基づくかどうかは、判定が…
集団に所属していて、その集団に誰かがやらなければならない仕事があったとする。その状況で、自分がやるか、他人がやるのを待つか。 単純に考えれば、ひたすら「待つ」のが合理的である。もちろん現実には、誰もやらずに問題が生じるケースや、いつも仕事を…
特に男性はそこに価値を見出すことが多いように思う。もちろん労力が小さいに越したことはないと思うが、そこまで大きな価値を見出すからには、別の理由もあるのだろう。 行動による状況の変化が大きくないと行動を起こせない、という性質があるなら、「最低…
報酬がすぐに得られるなら、そのために行動を起こすことは容易である。しかし、例えば数ヵ月後の大学受験に向けて勉強している場合、即座に何らかの報酬が得られるわけではない。もちろん、過去の経験から、現在の勉強によって大学合格が近付くはずだという…
同じ行動をして、同じ結果を得るにしても、それが明確な目的の下で行われたかどうかで、全体的な満足度は変わってくる。「目的下での手段(の実行)」が大きな価値を持つのは何故だろうか? そもそも「目的」とは何か?行動だけを見れば報酬の獲得が「目的」…
たぶん四、五回は書いたエントリだと思うが。ようやく自分なりに結論らしきものが出たので。 何かを選択する時に、選択肢を「網羅」しなければ気が済まない理由は、網羅して最善のものを選べば、それより「よいもの」が決して出てこないので、そういう「より…
同じ報酬が得られるのなら、労力は小さい方がいい。それは当然の発想だが、例えば冗長な方法で報酬が得られるようになったとして、「最低限の方法で獲得しよう」という発想はどのようにして生じるのか。単純な強化学習の枠組みでは、そういう発想は説明でき…