Swap 0 set and reward buffer append (#2273)

Fix bug with reward_buffer always 0
6 年前 · 1c18bd18
--- a/ml-agents/mlagents/trainers/ppo/trainer.py
+++ b/ml-agents/mlagents/trainers/ppo/trainer.py
                            self.stats["Environment/Cumulative Reward"].append(
                                rewards.get(agent_id, 0)
                            )
-                            rewards[agent_id] = 0
+                            rewards[agent_id] = 0
                        else:
                            self.stats[
                                self.policy.reward_signals[name].stat_name