Clean up some SAC LSTM

5 年前 · 5f00782b
--- a/ml-agents/mlagents/trainers/sac/optimizer.py
+++ b/ml-agents/mlagents/trainers/sac/optimizer.py
                _obs = batch["next_visual_obs%d" % i]
                feed_dict[self.next_visual_in[i]] = _obs
        if self.policy.use_recurrent:
-            feed_dict[policy.memory_in] = self._make_zero_mem(
-                self.policy.m_size, batch.num_experiences
-            )
+            feed_dict[policy.memory_in] = [
+                batch["memory"][i]
+                for i in range(0, len(batch["memory"]), self.policy.sequence_length)
+            ]
-                self.policy.m_size, batch.num_experiences
+                self.m_size // 3, batch.num_experiences
            )
        feed_dict[self.dones_holder] = batch["done"]
        return feed_dict