policy-value-methods

My implementation on bunch of policy value methods from scratch

Algorithms:

Hill Climb
Cross Entropy Method
Policy Gradient Methods
1. REINFORCE
2. PPO (Proximal Policy Optimization) Video
3. Actor Critic

Results:

LunarLander (REINFORCE) {Solved in 519 episodes}

BipedalWalker-v3 (TD3) {completion time ~14seconds, achieved after 500 episodes}

Score

Rolling score