学習とその場の判断

状態ないし行動の価値を決めて、その大きなものを選択するというのは、すでに状態や行動の価値が学習されているので、その場の判断というよりそれまでの学習で半ば自動的に行動が決まる感じだろう。

それに対して、ある行動を選択した時に生じるであろうδを計算してそれによって行動の実行を決めるというのは、学習ではなくその場の判断である。

「その場の判断」といっても過去の経験が何らかの形で反映されている可能性はある。

また、一度の判断で全てを決めるわけではなく、試しに少し行動してみてその結果次第で継続するかどうか決める場合もあるだろう。