ml-agents/config/imitation/PushBlock.yaml


								behaviors:

								  PushBlock:

								    trainer_type: ppo

								    hyperparameters:

								      batch_size: 128

								      buffer_size: 2048

								      learning_rate: 0.0003

								      beta: 0.01

								      epsilon: 0.2

								      lambd: 0.95

								      num_epoch: 3

								      learning_rate_schedule: linear

								    network_settings:

								      normalize: false

								      hidden_units: 256

								      num_layers: 2

								      vis_encode_type: simple

								    reward_signals:

								      extrinsic:

								        gamma: 0.99

								        strength: 1.0

								      gail:

								        gamma: 0.99

								        strength: 0.01

								        network_settings:

								          normalize: false

								          hidden_units: 128

								          num_layers: 2

								          vis_encode_type: simple

								        learning_rate: 0.0003

								        use_actions: false

								        use_vail: false

								        demo_path: Project/Assets/ML-Agents/Examples/PushBlock/Demos/ExpertPushBlock.demo

								    keep_checkpoints: 5

								    max_steps: 100000

								    time_horizon: 64

								    summary_freq: 60000

								    behavioral_cloning:

								      demo_path: Project/Assets/ML-Agents/Examples/PushBlock/Demos/ExpertPushBlock.demo

								      steps: 50000

								      strength: 1.0

								      samples_per_update: 0