Markov Decision Process Solver

Markov Decision Process Solver computes the optimal policy and value function for a 3-state, 2-action MDP using value iteration. Enter transition probabilities for each action and state, rewards, and the discount factor \\( \gamma \\).

Transition Probabilities for Action 1 (P(s’|s, a1)):

Transition Probabilities for Action 2 (P(s’|s, a2)):

Rewards for Each State and Action (R(s, a)):

Discount Factor (\\( \gamma \\), 0 to 1):

MDP Solution via Value Iteration

The solver uses value iteration to find the optimal policy and value function for a Markov Decision Process. The value function \\( V(s) \\) satisfies the Bellman equation:

\\[ V(s) = \max_a \left[ R(s, a) + \gamma \sum_{s’} P(s’|s, a) V(s’) \right] \\]

Where:

\\( R(s, a) \\): Reward for state \\( s \\) and action \\( a \\).
\\( P(s’|s, a) \\): Transition probability to state \\( s’ \\) given state \\( s \\) and action \\( a \\).
\\( \gamma \\): Discount factor (0 ≤ \\( \gamma \\) ≤ 1).

Value Iteration: Iteratively update \\( V(s) \\) until convergence, then extract the optimal policy \\( \pi(s) \\).

MDP Solution via Value Iteration

Related Calculators