Now Loading...

Now Loading...

価値関数

価値関数とは、強化学習においてエージェントがある状態に存在したり、行動を選択したりすることにどれくらい価値があるのかを定量化した関数です。

エージェントに迷路を解かせることを考えた場合、ゴール付近にいる状態は価値が高く、行き止まりのルートは価値が低くなります。また、行き止まりのルートに進むような行動も価値が低くなります。モデルの学習を通じてこの価値関数を推定することが強化学習において重要です。

クイズ

強化学習において学習の対象である行動価値関数Qの説明として、最も適切な選択肢を1つ選べ。 (参考: JDLA推薦図書「AI白書2019」 P45)
  • 正解を見る
  • 解説を見る
    価値関数は、エージェントを含む周囲の環境の現在の状態と、エージェントがとりうる行動を変数として、その行動がどれぐらいの報酬をもたらすかを返す関数です。価値関数の値が最大になるような行動を取ることでタスクが達成されるような適切な価値関数を求めることが、強化学習では重要です。

<個人向け>G検定&E資格オンライン講座の紹介

関連ワード

機械学習の具体的手法

教師あり学習

教師なし学習

強化学習

モデルの評価