ml-agents/config/sac_transfer/CrawlerStatic.yaml


								behaviors:

								  CrawlerStatic:

								    trainer_type: sac_transfer

								    hyperparameters:

								      learning_rate: 0.0003

								      learning_rate_schedule: linear

								      model_schedule: constant

								      batch_size: 256

								      buffer_size: 3000000

								      buffer_init_steps: 2000

								      tau: 0.005

								      steps_per_update: 20.0

								      save_replay_buffer: false

								      init_entcoef: 1.0

								      reward_signal_steps_per_update: 20.0

								      encoder_layers: 2

								      policy_layers: 3

								      forward_layers: 2

								      value_layers: 2

								      feature_size: 128

								      action_layers: 2

								      action_feature_size: 128

								      separate_policy_train: true

								      separate_policy_net: true

								      separate_model_train: true

								      # separate_value_net: true

								      reuse_encoder: true

								      in_epoch_alter: false

								      in_batch_alter: true

								      use_op_buffer: false

								      use_var_predict: true

								      with_prior: false

								      predict_return: true

								    network_settings:

								      normalize: true

								      hidden_units: 512

								      num_layers: 3

								      vis_encode_type: simple

								    reward_signals:

								      extrinsic:

								        gamma: 0.995

								        strength: 1.0

								    keep_checkpoints: 5

								    max_steps: 3000000

								    time_horizon: 1000

								    summary_freq: 30000

								    threaded: true