Fixed value estimate bug

5 年前 · 9e0ef912
--- a/ml-agents/mlagents/trainers/ppo/trainer.py
+++ b/ml-agents/mlagents/trainers/ppo/trainer.py

        value_next = self.policy.get_value_estimates(
            trajectory.next_obs,
-            trajectory.done_reached and not trajectory.done_reached,
+            trajectory.done_reached and not trajectory.max_step_reached,
        )

        # Evaluate all reward functions