end0tknr's kipple - web写経開発

太宰府天満宮の狛犬って、妙にカワイイ

強化学習におけるマルコフ決定過程 (MDP : Markov Decision Process)

メモ

マルコフ決定過程とは?

次の状態(正確には次の状態になる確率)は現在の状態と行動によってのみ決まる(過去の状態に依存しない)状態遷移モデル

参考url https://qiita.com/pocokhc/items/953585fa60fa71651969

マルコフ決定過程の弱点

環境の遷移確率と報酬関数を事前に知る必要がある。 現実の問題ではこれらのモデルが未知であることが一般的な為。

マルコフ決定過程の弱点のない手法

例えば、Q学習 ( Q-Learning ) やSARSA