メモ
マルコフ決定過程とは?
次の状態(正確には次の状態になる確率)は現在の状態と行動によってのみ決まる(過去の状態に依存しない)状態遷移モデル
参考url https://qiita.com/pocokhc/items/953585fa60fa71651969
マルコフ決定過程の弱点
環境の遷移確率と報酬関数を事前に知る必要がある。 現実の問題ではこれらのモデルが未知であることが一般的な為。
マルコフ決定過程の弱点のない手法
例えば、Q学習 ( Q-Learning ) やSARSA