try reload all

5 年前 · 12eda929
--- a/config/ppo_transfer/3DBall.yaml
+++ b/config/ppo_transfer/3DBall.yaml
      predict_return: true
      use_bisim: false
      separate_value_train: true
-      separate_value_net: true
      in_batch_alter: true
    network_settings:
      normalize: true
--- a/config/ppo_transfer/3DBallHard.yaml
+++ b/config/ppo_transfer/3DBallHard.yaml
      predict_return: true
      use_bisim: false
      separate_value_train: true
-      separate_value_net: true
      in_batch_alter: true
    network_settings:
      normalize: true
--- a/config/ppo_transfer/3DBallHardTransfer.yaml
+++ b/config/ppo_transfer/3DBallHardTransfer.yaml
      predict_return: true
      use_bisim: false
      separate_value_train: true
-      separate_value_net: true
-      load_policy: false
+      load_policy: true
-      load_value: false
+      load_value: true
      transfer_path: "results/3d-tr-s1/3DBall"
      use_transfer: true
      in_batch_alter: true
--- a/ml-agents/mlagents/trainers/policy/transfer_policy.py
+++ b/ml-agents/mlagents/trainers/policy/transfer_policy.py
        :param encoded_state: Tensor corresponding to encoded current state.
        :param encoded_next_state: Tensor corresponding to encoded next state.
        """
+        if not self.transfer:
+            encoded_state = tf.stop_gradient(encoded_state)
+
-        #if not self.transfer:
-        #    hidden = tf.stop_gradient(hidden)
-
+        
        for i in range(forward_layers):
            hidden = tf.layers.dense(
                hidden,
        forward_layers: int,
        separate_train: bool = False,
    ):
+        if not self.transfer:
+            encoded_state = tf.stop_gradient(encoded_state)
-
        #if not self.transfer:
        #    hidden = tf.stop_gradient(hidden)