マルコフ決定過程、Q学習、TD誤差、ε-greedy等の用語が多く、自分なりに整理

参考url

強化学習やQ学習とは?

機械学習における位置づけ

様々、ググって以下のように理解しました

機械学習┬強化学習──┬マルコフ決定過程──┬Q学習─DQN
        ├教師あり学習├動的計画法──TD学習┘
        └教師なし学習└モンテカルロ法┘

強化学習とは

Agentが試行錯誤を通じ、環境から最も報酬を得やすい行動を学習すること。

┌───┐
│Agent ├──Action──┐
└───┘              ↓
  ↑              ┌──────┐
  └ State,Reward ┤Environment │
                  └──────┘

項目	説明
Agent	ｴｰｼﾞｪﾝﾄ
Environment	環境. 例:迷路
Action	行動. Agentの上下左右の動き
State	状態. Agentが位置する各マス目
Transit	遷移. 状態sで行動aをとり、次のs'となる(※1)
Reward	即時報酬. ぞの時点で得られる即時報酬
Policy	方策. 累積報酬を最大化する行動戦略

※1 ε-greedy法で行動選択しますので、確率εでランダムな行動を行い、確率1-εで報酬の高い(最適)行動を選択します

┌──┬──┬──┬──┐
│                  ｺﾞｰﾙ│
│                   +1 │
│    ┼──┼    ┼──┤
│    │空  │    │ｺﾞｰﾙ│
│    │  欄│    │ -1 │
│    ┼──┤    ┼    ┤
│ｴｰｼﾞ      │          │
│ ｪﾝﾄ      │          │
└─────┴─────┘

Q学習とは

各状態:Sと各行動:Aに対応するQ値を保持するQ table:Q(s,a)を使用(以下)
Q値とは状態行動価値.(即時報酬であるRewardとは異なる)
Agentは最もQ値が高い行動を選択. ただし、εの確率でrandom行動
弱点は状態数:Sが多いと Q tableも巨大になり学習が進まない点

     a 0    a 1   …   a n
   ┌──┬──┬──┬──┐
s 0│Q 00│Q 01│ … │Q 0n│
   ├──┼──┼──┼──┤
s 1│Q 10│Q 11│ … │Q 1n│
   ├──┼──┼──┼──┤
 : │ :  │ :  │ :  │ :  │
   ├──┼──┼──┼──┤
s m│Q m0│Q m1│ … │Q mn│
   └──┴──┴──┴──┘