PPO ratio is incorrectly calculated #2

deketh · 2024-03-27T12:13:19Z

Currnetly, continuous PPO ratio is calculated as ratios = new_actor_log_probs/(actor_log_probs+EPSILON) this is derived from previous PPO algorithm ratio = actor_probs/(old_actor_probs+EPSILON) and that made sense as they were not log probabilites.

The line should actually be something like ratios = exp(new_actor_log_probs - actor_log_probs)

The text was updated successfully, but these errors were encountered:

deketh self-assigned this Mar 27, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

PPO ratio is incorrectly calculated #2

PPO ratio is incorrectly calculated #2

deketh commented Mar 27, 2024

PPO ratio is incorrectly calculated #2

PPO ratio is incorrectly calculated #2

Comments

deketh commented Mar 27, 2024