2012-07-11 罰をいかにして学習するか? 強化学習において罰は負の報酬として表現される。この場合、罰を受けると先行する刺激に対して反応しなくなる(あるいは直前の行動を起こさなくなる)が、罰を能動的に回避する必要がある場合にはそういった学習では不十分だろう。