Now Loading...

Now Loading...

方策勾配法

方策勾配法

最適な方策を見出すのは難しいため、Q学習などでは価値関数を最適化していくという考え方をしていますが、逆に直接最適な方策を見つけ出すというアプローチである方策勾配法というものもあります。

この方法では方策をあるパラメータで表された関数とし、そのパラメータを学習することで方策を学習する方法です。この方法は特に行動の選択肢が多い場合に用いられます。なぜならこれは行動の選択肢が多い場合には価値を算出するのに多大なる膨大コストがかかったしまうために学習が不可能であるからです。

クイズ

以下の文章を読み、空欄(ア)に最もよく当てはまる選択肢を1つ選べ。 (ア)は強化学習の手法の一つであり、累積報酬の期待値を目的関数とし、方策をあるパラメーターで表し、勾配降下法等により累積報酬を最大化する方策を求める。
  • 正解を見る
  • 解説を見る
    方策勾配法では、方策が何らかのパラメーターに従うと考えます。そしてそのパラメーターについての、目的関数(累積報酬の期待値)の勾配を用いて、勾配降下法で目的関数を最大化するパラメーターを求めます。結果として、累積報酬を最大化する方策が決まります。

特別割引クーポンのお知らせ

zero to one G検定 jdla

zero to one G検定 jdla

関連ワード

機械学習の具体的手法