behaviors:
  GridWorld:
    trainer: sac
    batch_size: 128
    buffer_size: 50000
    buffer_init_steps: 1000
    hidden_units: 128
    init_entcoef: 0.5
    learning_rate: 0.0003
    learning_rate_schedule: constant
    max_steps: 500000
    memory_size: 128
    normalize: false
    steps_per_update: 10
    num_layers: 1
    time_horizon: 5
    sequence_length: 64
    summary_freq: 20000
    tau: 0.005
    use_recurrent: false
    vis_encode_type: simple
    reward_signals:
      extrinsic:
        strength: 1.0
        gamma: 0.9