added ppo/sac_policy attributes to keep up with master

5 年前 · 6a4e7cf9
--- a/ml-agents/mlagents/trainers/ppo/trainer.py
+++ b/ml-agents/mlagents/trainers/ppo/trainer.py
        for _reward_signal in policy.reward_signals.keys():
            self.collected_rewards[_reward_signal] = {}

+        self.ppo_policy = policy
+
        return policy


--- a/ml-agents/mlagents/trainers/sac/trainer.py
+++ b/ml-agents/mlagents/trainers/sac/trainer.py
                    self.update_buffer.num_experiences
                )
            )
+
+        self.sac_policy = policy
+
        return policy

    def update_sac_policy(self) -> None: