2e7 steps

5 年前 · 999fc7ab
--- a/config/ppo/WalkerDynamic.yaml
+++ b/config/ppo/WalkerDynamic.yaml
    lambd: 0.95
    learning_rate: 0.0003
    learning_rate_schedule: linear
-    max_steps: 1e8
+    max_steps: 2e7
    memory_size: 128
    normalize: true
    num_epoch: 3