Use resamp policy for SAC

5 年前 · b21b3d5c
--- a/ml-agents/mlagents/trainers/sac/trainer.py
+++ b/ml-agents/mlagents/trainers/sac/trainer.py
            self.is_training,
            self.load,
            tanh_squash=True,
+            resample=True,
        )
        for _reward_signal in policy.reward_signals.keys():
            self.collected_rewards[_reward_signal] = defaultdict(lambda: 0)