fixing more ci tests

5 年前 · 3e76adbd
--- a/ml-agents/mlagents/trainers/ppo/trainer.py
+++ b/ml-agents/mlagents/trainers/ppo/trainer.py

    def create_policy(self, brain_parameters: BrainParameters) -> TFPolicy:
        if self.multi_gpu and len(get_devices()) > 1:
-            policy = MultiGpuPPOPolicy(
+            self.ppo_policy = MultiGpuPPOPolicy(
                self.seed,
                brain_parameters,
                self.trainer_parameters,
        else:
-            policy = PPOPolicy(
+            self.ppo_policy = PPOPolicy(
                self.seed,
                brain_parameters,
                self.trainer_parameters,

-        for _reward_signal in policy.reward_signals.keys():
+        for _reward_signal in self.ppo_policy.reward_signals.keys():
-        self.ppo_policy = policy
-
-        return policy
+        return self.ppo_policy


 def discount_rewards(r, gamma=0.99, value_next=0.0):
--- a/ml-agents/mlagents/trainers/sac/trainer.py
+++ b/ml-agents/mlagents/trainers/sac/trainer.py
            self.trainer_metrics.end_policy_update()

    def create_policy(self, brain_parameters: BrainParameters) -> TFPolicy:
-        policy = SACPolicy(
+        self.sac_policy = SACPolicy(
            self.seed,
            brain_parameters,
            self.trainer_parameters,
-        for _reward_signal in policy.reward_signals.keys():
+        for _reward_signal in self.sac_policy.reward_signals.keys():
            self.collected_rewards[_reward_signal] = {}

        # Load the replay buffer if load
                )
            )

-        self.sac_policy = policy
-
-        return policy
+        return self.sac_policy

    def update_sac_policy(self) -> None:
        """