multiple sizes configs

5 年前 · d7402406
--- a/ml-agents/mlagents/trainers/ppo_transfer/optimizer.py
+++ b/ml-agents/mlagents/trainers/ppo_transfer/optimizer.py
                    train_vars = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES)
                elif self.train_type == "encoding":
                    train_vars = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, "encoding")
+                elif self.train_type == "policy":
+                    train_vars = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, "encoding")
+                    train_vars += tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, "policy")
+                    train_vars += tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, "value")
                print("trainable", train_vars)
                # train_vars = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, "encoding")
                # train_vars += tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, "policy")
--- a/ml-agents/mlagents/trainers/settings.py
+++ b/ml-agents/mlagents/trainers/settings.py

    separate_value_train: bool = False
    separate_policy_train: bool = False
+    seprate_value_net: bool = False
    use_var_encoder: bool = False
    use_var_predict: bool = False
    with_prior: bool = False
--- a/config/ppo_transfer/CrawlerStatic128.yaml
+++ b/config/ppo_transfer/CrawlerStatic128.yaml
+behaviors:
+  CrawlerStatic:
+    trainer_type: ppo_transfer
+    hyperparameters:
+      batch_size: 2024
+      buffer_size: 20240
+      learning_rate: 0.0003
+      beta: 0.005
+      epsilon: 0.2
+      lambd: 0.95
+      num_epoch: 3
+      learning_rate_schedule: linear
+      encoder_layers: 2
+      policy_layers: 2
+      value_layers: 2
+      feature_size: 128
+      reuse_encoder: true
+      in_epoch_alter: true
+    network_settings:
+      normalize: true
+      hidden_units: 512
+      num_layers: 3
+      vis_encode_type: simple
+    reward_signals:
+      extrinsic:
+        gamma: 0.995
+        strength: 1.0
+    keep_checkpoints: 5
+    max_steps: 10000000
+    time_horizon: 1000
+    summary_freq: 30000
+    threaded: true
--- a/config/ppo_transfer/CrawlerStatic128_256.yaml
+++ b/config/ppo_transfer/CrawlerStatic128_256.yaml
+behaviors:
+  CrawlerStatic:
+    trainer_type: ppo_transfer
+    hyperparameters:
+      batch_size: 2024
+      buffer_size: 20240
+      learning_rate: 0.0003
+      beta: 0.005
+      epsilon: 0.2
+      lambd: 0.95
+      num_epoch: 3
+      learning_rate_schedule: linear
+      encoder_layers: 2
+      policy_layers: 2
+      value_layers: 2
+      feature_size: 128
+      reuse_encoder: true
+      in_epoch_alter: true
+    network_settings:
+      normalize: true
+      hidden_units: 256
+      num_layers: 3
+      vis_encode_type: simple
+    reward_signals:
+      extrinsic:
+        gamma: 0.995
+        strength: 1.0
+    keep_checkpoints: 5
+    max_steps: 10000000
+    time_horizon: 1000
+    summary_freq: 30000
+    threaded: true
--- a/config/ppo_transfer/CrawlerStatic256.yaml
+++ b/config/ppo_transfer/CrawlerStatic256.yaml
+behaviors:
+  CrawlerStatic:
+    trainer_type: ppo_transfer
+    hyperparameters:
+      batch_size: 2024
+      buffer_size: 20240
+      learning_rate: 0.0003
+      beta: 0.005
+      epsilon: 0.2
+      lambd: 0.95
+      num_epoch: 3
+      learning_rate_schedule: linear
+      encoder_layers: 2
+      policy_layers: 2
+      value_layers: 2
+      feature_size: 256
+      reuse_encoder: true
+      in_epoch_alter: true
+    network_settings:
+      normalize: true
+      hidden_units: 512
+      num_layers: 3
+      vis_encode_type: simple
+    reward_signals:
+      extrinsic:
+        gamma: 0.995
+        strength: 1.0
+    keep_checkpoints: 5
+    max_steps: 10000000
+    time_horizon: 1000
+    summary_freq: 30000
+    threaded: true
--- a/config/ppo_transfer/CrawlerStatic256ppo.yaml
+++ b/config/ppo_transfer/CrawlerStatic256ppo.yaml
+behaviors:
+  CrawlerStatic:
+    trainer_type: ppo
+    hyperparameters:
+      batch_size: 2024
+      buffer_size: 20240
+      learning_rate: 0.0003
+      beta: 0.005
+      epsilon: 0.2
+      lambd: 0.95
+      num_epoch: 3
+      learning_rate_schedule: linear
+    network_settings:
+      normalize: true
+      hidden_units: 256
+      num_layers: 3
+      vis_encode_type: simple
+    reward_signals:
+      extrinsic:
+        gamma: 0.995
+        strength: 1.0
+    keep_checkpoints: 5
+    max_steps: 10000000
+    time_horizon: 1000
+    summary_freq: 30000
+    threaded: true
--- a/config/ppo_transfer/CrawlerStatic32_256.yaml
+++ b/config/ppo_transfer/CrawlerStatic32_256.yaml
+behaviors:
+  CrawlerStatic:
+    trainer_type: ppo_transfer
+    hyperparameters:
+      batch_size: 2024
+      buffer_size: 20240
+      learning_rate: 0.0003
+      beta: 0.005
+      epsilon: 0.2
+      lambd: 0.95
+      num_epoch: 3
+      learning_rate_schedule: linear
+      encoder_layers: 2
+      policy_layers: 2
+      value_layers: 2
+      feature_size: 32
+      reuse_encoder: true
+      in_epoch_alter: true
+    network_settings:
+      normalize: true
+      hidden_units: 256
+      num_layers: 3
+      vis_encode_type: simple
+    reward_signals:
+      extrinsic:
+        gamma: 0.995
+        strength: 1.0
+    keep_checkpoints: 5
+    max_steps: 10000000
+    time_horizon: 1000
+    summary_freq: 30000
+    threaded: true
--- a/config/ppo_transfer/CrawlerStatic64_256.yaml
+++ b/config/ppo_transfer/CrawlerStatic64_256.yaml
+behaviors:
+  CrawlerStatic:
+    trainer_type: ppo_transfer
+    hyperparameters:
+      batch_size: 2024
+      buffer_size: 20240
+      learning_rate: 0.0003
+      beta: 0.005
+      epsilon: 0.2
+      lambd: 0.95
+      num_epoch: 3
+      learning_rate_schedule: linear
+      encoder_layers: 2
+      policy_layers: 2
+      value_layers: 2
+      feature_size: 64
+      reuse_encoder: true
+      in_epoch_alter: true
+    network_settings:
+      normalize: true
+      hidden_units: 256
+      num_layers: 3
+      vis_encode_type: simple
+    reward_signals:
+      extrinsic:
+        gamma: 0.995
+        strength: 1.0
+    keep_checkpoints: 5
+    max_steps: 10000000
+    time_horizon: 1000
+    summary_freq: 30000
+    threaded: true