ml-agents/config/sac_transfer/PushBlock.yaml


								behaviors:

								  PushBlock:

								    trainer_type: sac_transfer

								    hyperparameters:

								      learning_rate: 0.0003

								      learning_rate_schedule: linear

								      model_schedule: constant

								      batch_size: 128

								      buffer_size: 2000000

								      buffer_init_steps: 0

								      tau: 0.005

								      steps_per_update: 10.0

								      save_replay_buffer: false

								      init_entcoef: 0.05

								      reward_signal_steps_per_update: 10.0

								      encoder_layers: 2

								      policy_layers: 2

								      forward_layers: 2

								      value_layers: 2

								      action_layers: 2

								      feature_size: 128

								      action_feature_size: 64

								      separate_policy_train: true

								      separate_policy_net: true

								      separate_model_train: true

								      reuse_encoder: true

								      in_epoch_alter: false

								      in_batch_alter: true

								      use_op_buffer: false

								      use_var_predict: true

								      with_prior: false

								      predict_return: true

								      use_bisim: false

								    network_settings:

								      normalize: false

								      hidden_units: 256

								      num_layers: 2

								      vis_encode_type: simple

								    reward_signals:

								      extrinsic:

								        gamma: 0.99

								        strength: 1.0

								    keep_checkpoints: 5

								    max_steps: 2000000

								    time_horizon: 64

								    summary_freq: 100000

								    threaded: true