Revert "action enc"

This reverts commit 9acb5f846a77a47d14694cb1271e2a370f395b6a.
5 年前 · 12f3786c
--- a/config/ppo_transfer/3DBall.yaml
+++ b/config/ppo_transfer/3DBall.yaml
      encoder_layers: 1
      action_layers: 1
      policy_layers: 1
-      forward_layers: 0
+      forward_layers: 1
-      action_feature_size: 16
+      action_feature_size: 32
      reuse_encoder: true
      in_epoch_alter: false
      use_op_buffer: false
--- a/config/ppo_transfer/3DBallHard.yaml
+++ b/config/ppo_transfer/3DBallHard.yaml
      encoder_layers: 1
      action_layers: 1
      policy_layers: 1
-      forward_layers: 0
+      forward_layers: 1
-      action_feature_size: 16
+      action_feature_size: 32
      reuse_encoder: true
      in_epoch_alter: false
      use_op_buffer: false
--- a/config/ppo_transfer/3DBallHardTransfer.yaml
+++ b/config/ppo_transfer/3DBallHardTransfer.yaml
      encoder_layers: 1
      action_layers: 1
      policy_layers: 1
-      forward_layers: 0
+      forward_layers: 1
-      action_feature_size: 16
+      action_feature_size: 32
      reuse_encoder: true
      in_epoch_alter: false
      use_op_buffer: false
      train_model: false
      load_model: true
      train_action: false
-      load_action: true
+      load_action: false
      train_policy: true
      load_policy: false
      train_value: true
--- a/ml-agents/mlagents/trainers/policy/transfer_policy.py
+++ b/ml-agents/mlagents/trainers/policy/transfer_policy.py
                reuse_encoder,
            )

-            self.action_encoder = self._create_action_encoder(
-                self.current_action,
-                self.h_size,
-                self.action_feature_size,
-                action_layers,
-            )
+            self.action_encoder = self.current_action  # self._create_action_encoder(
+            #    self.current_action,
+            #    self.h_size,
+            #    self.action_feature_size,
+            #    action_layers,
+            # )

            if not reuse_encoder:
                self.targ_encoder = tf.stop_gradient(self.targ_encoder)
            encoding_checkpoint = os.path.join(self.model_path, f"encoding.ckpt")
            encoding_saver.save(self.sess, encoding_checkpoint)

-            action_vars = tf.get_collection(
-               tf.GraphKeys.TRAINABLE_VARIABLES, "action_enc"
-            )
-            action_saver = tf.train.Saver(action_vars)
-            action_checkpoint = os.path.join(self.model_path, f"action_enc.ckpt")
-            action_saver.save(self.sess, action_checkpoint)
+            # action_vars = tf.get_collection(
+            #    tf.GraphKeys.TRAINABLE_VARIABLES, "action_enc"
+            # )
+            # action_saver = tf.train.Saver(action_vars)
+            # action_checkpoint = os.path.join(self.model_path, f"action_enc.ckpt")
+            # action_saver.save(self.sess, action_checkpoint)

            latent_vars = tf.get_collection(
                tf.GraphKeys.TRAINABLE_VARIABLES, "encoding/latent"
        :param encoded_state: Tensor corresponding to encoded current state.
        :param encoded_next_state: Tensor corresponding to encoded next state.
        """
-        if not self.transfer:
-            encoded_state = tf.stop_gradient(encoded_state)
-        
+        if not self.transfer:
+            hidden = tf.stop_gradient(hidden)
+
        for i in range(forward_layers):
            hidden = tf.layers.dense(
                hidden,
        forward_layers: int,
        separate_train: bool = False,
    ):
-        if not self.transfer:
-            encoded_state = tf.stop_gradient(encoded_state)
+
+        if not self.transfer:
+            hidden = tf.stop_gradient(hidden)

        for i in range(forward_layers):
            hidden = tf.layers.dense(