強化学習の生理的機構

すでにかなり有名な話だが、生理的な基盤について突っ込んだ解説は少ない。

元になった実験はSchultzのサルの電気生理実験で、彼自身理論家と組んでいくつかモデルも作製している。

ただ生理的な基盤についてそこまで深く検討してはいない。

おそらく一番詳細に検討しているJames C. Houkだと思う。

1995年に彼自身が編集して出版したモノグラフの中で、１章を割いて詳細な説明を試みている。

（ある程度基礎知識のある人向けに）大雑把に内容を説明すると、まず線条体から黒質緻密部に、直接的な抑制性の入力と、視床下核を経由する間接的な脱抑制の入力を想定する。（解剖学的根拠に基づいている）

この時、直接的な経路は間接的な経路よりも、（受容体のサブタイプの関係で）遅く働く。（一応生理学的な根拠があるが、苦しいっちゃ苦しい）

つまり、線条体が興奮すると、SNcは先に脱抑制で（ベースの興奮性入力との総和で）興奮し、その後抑制されるという変化をする。

手がかり刺激を学習し、手がかり刺激に対して線条体が反応する場合、SNcはまず興奮しその後抑制される。

しかし、直後に報酬刺激も与えられるため、抑制分と相殺され、手がかり刺激への反応のみが現れる。（ちょっと苦しい説明）

上記が「手がかり刺激にのみ反応する機構」だが、その後に「（線条体の細胞が）手がかり刺激への反応性を獲得する機構」について述べている。

まず線条体の細胞は皮質から多くの入力を受けているため、学習していない段階でも「多少は」反応するものとする。

シナプスの可塑的変化は皮質―線条体シナプスで起こる。

皮質と線条体の細胞が同時に興奮し、かつそこにドーパミン入力も入るとLTDが起こる。

皮質と線条体の細胞が同時に興奮し、そこにドーパミン入力が入らないとLTDが起こる。

（この辺をSTDP関数で総合的に説明した研究が他にあるけど）

未学習の手がかり刺激に対し、線条体が多少反応すると、生化学反応として興奮の痕跡が残る。

ここに時間遅れで入ってくる（線条体のわずかな興奮によるものではなく、その後の報酬刺激による）ドーパミン入力が入ってくることで、LTPが起き、手がかり刺激に対する線条体の反応性が強められる。（生化学反応の時間オーダーについては、一応いくつか支持するデータを挙げている）

ただし手がかり刺激を学習した後でも、報酬が与えられないとLTDが起きて線条体の反応性は弱められる。

十分に線条体を興奮させることのできる手がかり刺激は、DA放出を促すので、それ自体が強化子として機能しうる。（ただしその後に報酬が与えられないと、強化子としての機能は失われていく）

ゆえにその後は「手がかりの手がかり」に対する反応性も学習することができる。（理論上、無限に先行刺激に転移していく）

…まぁその後、強化学習のどのモデルに近いか（アクター・クリティックだという結論）とかそういう話も出てくるんだけど、概要は上記のような感じ。

人間の場合は、学習が進行すると報酬が完全に欠如していても（概念のやり取りだけで）報酬感を得ることができるわけで、上記のような枠組みだけで人間の思考の展開を説明することは困難だが。

あと「一般化」とか「特殊化」といった処理をどのように捉えるべきかという問題もある。