[skip ci] moving step increment to trainer from environment for sac

5 年前 · 9d7dd3b6
--- a/ml-agents/mlagents/trainers/ppo/trainer.py
+++ b/ml-agents/mlagents/trainers/ppo/trainer.py
        The reward signal generators must be updated in this method at their own pace.
        """
        self.cumulative_returns_since_policy_update.clear()
-        super()._update_policy()
+        self._maybe_write_summary(
+            self.get_step + self.trainer_parameters["buffer_size"]
+        )
+        self._increment_step(self.trainer_parameters["buffer_size"], self.brain_name)

        # Make sure batch_size is a multiple of sequence length. During training, we
        # will need to reshape the data into a batch_size x sequence_length tensor.
--- a/ml-agents/mlagents/trainers/sac/trainer.py
+++ b/ml-agents/mlagents/trainers/sac/trainer.py
        """

        self.cumulative_returns_since_policy_update.clear()
+        self._maybe_write_summary(
+            self.get_step
+            + self.trainer_parameters["num_update"]
+            * self.trainer_parameters["batch_size"]
+        )
+        self._increment_step(
+            self.trainer_parameters["num_update"]
+            * self.trainer_parameters["batch_size"],
+            self.brain_name,
+        )
+
-        num_updates = self.trainer_parameters["num_update"]
-        for _ in range(num_updates):
+        for _ in range(self.trainer_parameters["num_update"]):
            logger.debug("Updating SAC policy at step {}".format(self.step))
            buffer = self.update_buffer
            if (
--- a/ml-agents/mlagents/trainers/trainer/rl_trainer.py
+++ b/ml-agents/mlagents/trainers/trainer/rl_trainer.py
        """
        Uses demonstration_buffer to update model.
        """
-        self._maybe_write_summary(self.get_step + self.trainer_parameters["buffer_size"])
-        self._increment_step(self.trainer_parameters["buffer_size"], self.brain_name)
+        pass

    def _increment_step(self, n_steps: int, name_behavior_id: str) -> None:
        """