Remove epsilon from everywhere

5 年前 · a5caf4d6
--- a/ml-agents/mlagents/trainers/components/bc/module.py
+++ b/ml-agents/mlagents/trainers/components/bc/module.py
            self.policy.sequence_length: self.policy.sequence_length,
        }
        feed_dict[self.model.action_in_expert] = mini_batch_demo["actions"]
-        if self.policy.brain.vector_action_space_type == "continuous":
-            feed_dict[self.policy.epsilon] = np.random.normal(
-                size=(1, self.policy.act_size[0])
-            )
-        else:
+        if not self.policy.use_continuous_act:
            feed_dict[self.policy.action_masks] = np.ones(
                (
                    self.n_sequences * self.policy.sequence_length,
--- a/ml-agents/mlagents/trainers/sac/optimizer.py
+++ b/ml-agents/mlagents/trainers/sac/optimizer.py
        self.dones_holder = tf.placeholder(
            shape=[None], dtype=tf.float32, name="dones_holder"
        )
-        # This is just a dummy to get BC to work. PPO has this but SAC doesn't.
-        # TODO: Proper input and output specs for models
-        self.epsilon = tf.placeholder(
-            shape=[None, self.policy.act_size[0]], dtype=tf.float32, name="epsilon"
-        )

        if self.policy.use_recurrent:
            self.memory_in = self.policy_network.memory_in