Now Loading...

Now Loading...

状態価値関数

状態価値関数

強化学習では「最終的に獲得する累計報酬を最大化」することが目的です。

そこで重要となってくるものが状態価値関数と行動価値関数です。状態価値関数は目的に近ければ近いほど値は大きくなるため、エージェントはこれを元に行動を計画します。

特別割引クーポンのお知らせ

zero to one G検定 jdla

上記バナーをクリックすると割引クーポンが適用されます。商品の詳細については <こちら> でご確認の上、ご購入ください。

zero to one G検定 jdla

上記バナーをクリックすると割引クーポンが適用されます。商品の詳細については <こちら> でご確認の上、ご購入ください。

関連ワード

機械学習の具体的手法