ml-agents/config/ppo_transfer/3DBallHardTransfer.yaml


								behaviors:

								  3DBallHard:

								    trainer_type: ppo_transfer

								    hyperparameters:

								      batch_size: 1200

								      buffer_size: 12000

								      learning_rate: 0.0003

								      beta: 0.001

								      epsilon: 0.2

								      lambd: 0.95

								      num_epoch: 3

								      learning_rate_schedule: linear

								      model_schedule: linear

								      # separate_value_train: true

								      encoder_layers: 1

								      policy_layers: 1

								      forward_layers: 1

								      value_layers: 1

								      feature_size: 16

								      reuse_encoder: true

								      in_epoch_alter: false

								      in_batch_alter: false

								      use_op_buffer: false

								      use_var_predict: true

								      with_prior: false

								      predict_return: true

								      use_bisim: false

								      separate_value_net: false

								      use_transfer: true

								      transfer_path: "results/ppomodel_ball_l1/3DBall"

								      load_model: true

								      train_model: false

								      # load_policy: true

								      # load_value: true

								    network_settings:

								      normalize: true

								      hidden_units: 128

								      num_layers: 2

								      vis_encode_type: simple

								    reward_signals:

								      extrinsic:

								        gamma: 0.995

								        strength: 1.0

								    keep_checkpoints: 5

								    max_steps: 2000000

								    time_horizon: 1000

								    summary_freq: 12000

								    threaded: true