jotunの頭の中

状態と行動

強化学習のアルゴリズムとしては、どちらも似たようなパラメータだが、人間の場合はどのコードのされ方にかなり違いがあるのではなかろうか。

「状態」は、外部の環境からの刺激を受けて皮質にコードされるという解釈が多い。

「行動」は、（基底核全体のループが働くが）主に線条体にコードされるという解釈が多い。

で、両者の結合強度をドーパミン系が修飾することで学習がなされ、行動の価値として保持される。

しかし状態はともかく、行動に関してはそういった静的なものではないのではないか？