状態と行動

強化学習アルゴリズムとしては、どちらも似たようなパラメータだが、人間の場合はどのコードのされ方にかなり違いがあるのではなかろうか。


「状態」は、外部の環境からの刺激を受けて皮質にコードされるという解釈が多い。

「行動」は、(基底核全体のループが働くが)主に線条体にコードされるという解釈が多い。

で、両者の結合強度をドーパミン系が修飾することで学習がなされ、行動の価値として保持される。

しかし状態はともかく、行動に関してはそういった静的なものではないのではないか?