backprop enc single task

5 年前 · 463db9e8
--- a/ml-agents/mlagents/trainers/policy/transfer_policy.py
+++ b/ml-agents/mlagents/trainers/policy/transfer_policy.py
        """
        combined_input = tf.concat([encoded_state, encoded_action], axis=1)
        hidden = combined_input
-        if not self.transfer:
-            hidden = tf.stop_gradient(hidden)
+        #if not self.transfer:
+        #    hidden = tf.stop_gradient(hidden)

        for i in range(forward_layers):
            hidden = tf.layers.dense(
        combined_input = tf.concat([encoded_state, encoded_action], axis=1)
        hidden = combined_input

-        if not self.transfer:
-            hidden = tf.stop_gradient(hidden)
+        #if not self.transfer:
+        #    hidden = tf.stop_gradient(hidden)

        for i in range(forward_layers):
            hidden = tf.layers.dense(