behaviors:
  BigWallJump:
    trainer: sac
    batch_size: 128
    buffer_size: 50000
    buffer_init_steps: 0
    hidden_units: 256
    init_entcoef: 0.1
    learning_rate: 0.0003
    learning_rate_schedule: constant
    max_steps: 2e7
    memory_size: 128
    normalize: false
    steps_per_update: 10
    num_layers: 2
    time_horizon: 128
    sequence_length: 64
    summary_freq: 20000
    tau: 0.005
    use_recurrent: false
    vis_encode_type: simple
    reward_signals:
      extrinsic:
        strength: 1.0
        gamma: 0.99

  SmallWallJump:
    trainer: sac
    batch_size: 128
    buffer_size: 50000
    buffer_init_steps: 0
    hidden_units: 256
    init_entcoef: 0.1
    learning_rate: 0.0003
    learning_rate_schedule: constant
    max_steps: 5e6
    memory_size: 128
    normalize: false
    steps_per_update: 10
    num_layers: 2
    time_horizon: 128
    sequence_length: 64
    summary_freq: 20000
    tau: 0.005
    use_recurrent: false
    vis_encode_type: simple
    reward_signals:
      extrinsic:
        strength: 1.0
        gamma: 0.99