벨만 방정식 (Bellman Expectation, Bellman Optimality)
강화학습 공부를 하며 중요했던 개념 중 하나인 벨만 방정식 (Bellman Equation) 에 대해 정리하였다. Bellman Expectation Equation은 주어진 policy에 대해서, 상태 가치 함수 V와 행동 가치 함수 Q를 정의하고 계산하는데에 사용되는 식이다. Vπ(s)=Eπ[Rt+1+γVπ(St+1)∣St=s]Qπ(s,a)=Eπ[Rt+1+γQπ(St+1,At+1)∣St=s,At=a] 각 상태 혹은 행동의 가치는, 그 다음 state의 reward와 ..
2024.06.18