Q値
Q値
強化学習で重要となってくる行動価値関数の式の頭文字からこの関数の値をQ値と呼びます。
このQ値を最適化できれば適切な行動がなされたということになります。
👉より体系的に学びたい方は「人工知能基礎」(東京大学松尾豊先生監修)へ
クイズ
以下の文章を読み,空欄(ア)に最もよく当てはまる選択肢を1つ選べ.
深層強化学習の1つであるDQN(Deep Q-Network)は、強化学習である(ア)においてQ値を推定するのにディープラーニングを用いたモデルである.
人工知能基礎講座を提供中
人工知能の第一人者である東京大学の松尾豊教授が監修した人工知能基礎講座を受講してみませんか?
人工知能の歴史から自然言語処理、機械学習、深層学習といった最先端のトピックやAIに関わる法律問題まで網羅しているので全てのビジネスパーソン・AIの初学者におすすめです。
サンプル動画
AI初学者・ビジネスパーソン向けのG検定対策講座
zero to oneの「E資格」向け認定プログラム
日本ディープラーニング協会の実施するE資格の受験ならzero to oneの「E資格」向け認定プログラム (税込165,000円) をおすすめします。当講座は、東京大学大学院工学系研究科の松尾豊教授と東北大学大学院情報科学研究科の岡谷貴之教授が監修する実践的なプログラムとなっています。
厚生労働省の教育訓練給付制度対象のE資格認定プログラムの中では最安値※となり、実質負担額49,500円~(支給割合70%の場合)で受講可能です。※2023年弊社調べ
関連ワード
機械学習の具体的手法
教師あり学習
- 回帰問題
- ラッソ回帰
- 分類問題
- 半教師あり学習
- 決定木
- リッジ回帰
- アンサンブル学習
- マージン最大化
- バギング
- ブートストラップサンプリング
- 勾配ブースティング
- カーネル
- 単純パーセプトロン
- カーネルトリック
- 活性化関数
- 多層パーセプトロン
- シグモイド関数
- ソフトマックス関数
- 疑似相関
- 隠れ層
- 誤差逆伝播法
- AdaBoost
- ベクトル自己回帰モデル(VARモデル)
- 剪定
- 多クラス分類
- 重回帰分析
- 線形回帰
- ロジスティック回帰
- サポートベクターマシン (SVM)
- ランダムフォレスト
- 自己回帰モデル (AR)
教師なし学習
- レコメンデーション
- クラスタリング
- クラスタ分析
- 特異値分解
- t-SNE
- デンドログラム(樹形図)
- コールドスタート問題
- 多次元尺度構成法
- コンテンツベースフィルタリング
- 次元削減
- 潜在的ディリクレ配分法(LDA)
- 次元圧縮
- k-means 法
- 主成分分析 (PCA)
- ウォード法
- トピックモデル
- 協調フィルタリング
強化学習
- 割引率
- ε-greedy方策
- UCB方策
- 状態価値関数
- マルコフ性
- Q値
- Q学習
- 行動価値関数
- REINFORCE
- Actor-Critic
- 方策勾配法
- A3C
- マルコフ決定過程モデル
- バンディットアルゴリズム
- 価値関数