2013-08-05 状態と行動 強化学習のアルゴリズムとしては、どちらも似たようなパラメータだが、人間の場合はどのコードのされ方にかなり違いがあるのではなかろうか。 「状態」は、外部の環境からの刺激を受けて皮質にコードされるという解釈が多い。「行動」は、(基底核全体のループが働くが)主に線条体にコードされるという解釈が多い。で、両者の結合強度をドーパミン系が修飾することで学習がなされ、行動の価値として保持される。しかし状態はともかく、行動に関してはそういった静的なものではないのではないか?