no encoder for single task

4 年前 · 2dec257c
--- a/config/ppo_transfer/3DBall.yaml
+++ b/config/ppo_transfer/3DBall.yaml
      learning_rate_schedule: linear
      model_schedule: linear
      load_model: false
-      encoder_layers: 2
+      encoder_layers: 1
      action_layers: 1
      policy_layers: 1
      forward_layers: 1
      with_prior: false
      predict_return: true
      use_bisim: false
-      separate_value_train: true
+      separate_value_train: false
      in_batch_alter: true
    network_settings:
      normalize: true
--- a/config/ppo_transfer/3DBallHard.yaml
+++ b/config/ppo_transfer/3DBallHard.yaml
      learning_rate_schedule: linear
      model_schedule: linear
      load_model: false
-      encoder_layers: 2
+      encoder_layers: 1
      action_layers: 1
      policy_layers: 1
      forward_layers: 1
      with_prior: false
      predict_return: true
      use_bisim: false
-      separate_value_train: true
+      separate_value_train: false
      in_batch_alter: true
    network_settings:
      normalize: true
--- a/config/ppo_transfer/3DBallHardTransfer.yaml
+++ b/config/ppo_transfer/3DBallHardTransfer.yaml
      num_epoch: 3
      learning_rate_schedule: linear
      model_schedule: linear
-      encoder_layers: 2
+      encoder_layers: 1
      action_layers: 1
      policy_layers: 1
      forward_layers: 1
      with_prior: false
      predict_return: true
      use_bisim: false
-      separate_value_train: true
+      separate_value_train: false
      train_model: false
      load_model: true
      train_action: false
--- a/ml-agents/mlagents/trainers/policy/transfer_policy.py
+++ b/ml-agents/mlagents/trainers/policy/transfer_policy.py
        """
        combined_input = tf.concat([encoded_state, encoded_action], axis=1)
        hidden = combined_input
-        # if self.transfer:
-        #    hidden = tf.stop_gradient(hidden)
+        if not self.transfer:
+            hidden = tf.stop_gradient(hidden)

        for i in range(forward_layers):
            hidden = tf.layers.dense(
    ):

        combined_input = tf.concat([encoded_state, encoded_action], axis=1)
+        hidden = combined_input
+
+        if not self.transfer:
+            hidden = tf.stop_gradient(hidden)
-        hidden = combined_input
-        # if self.transfer:
-        #    hidden = tf.stop_gradient(hidden)
        for i in range(forward_layers):
            hidden = tf.layers.dense(
                hidden,