Use reward sum

4 年前 · b21094f1
--- a/ml-agents/mlagents/trainers/trajectory.py
+++ b/ml-agents/mlagents/trainers/trajectory.py
            )
            agent_buffer_trajectory["team_rewards"].append(teammate_rewards)
            team_reward = teammate_rewards + [exp.reward]
-            agent_buffer_trajectory["average_team_reward"].append(
-                sum(team_reward) / len(team_reward)
-            )
+            agent_buffer_trajectory["average_team_reward"].append(sum(team_reward))

            # Next actions
            teammate_cont_next_actions = []