no target net

4 年前 · 5741f8f6
--- a/config/ppo/PushBlock.yaml
+++ b/config/ppo/PushBlock.yaml
      batch_size: 128
      buffer_size: 2048
      learning_rate: 0.0003
-      beta: 0.01
+      beta: 0.005
-      lambd: 0.95
+      lambd: 0.8
      num_epoch: 3
      learning_rate_schedule: linear
    network_settings:
--- a/ml-agents/mlagents/trainers/optimizer/torch_optimizer.py
+++ b/ml-agents/mlagents/trainers/optimizer/torch_optimizer.py

        memory = torch.zeros([1, 1, self.policy.m_size])

-        value_estimates, marg_val_estimates, mem = self.policy.actor_critic.target_critic_pass(
+        value_estimates, marg_val_estimates, mem = self.policy.actor_critic.critic_pass(
            current_obs,
            actions,
            memory,
        )
-        next_value_estimates, next_marg_val_estimates, next_mem = self.policy.actor_critic.target_critic_pass(
+        next_value_estimates, next_marg_val_estimates, next_mem = self.policy.actor_critic.critic_pass(
            next_obs,
            next_actions,
            memory,
--- a/ml-agents/mlagents/trainers/ppo/optimizer_torch.py
+++ b/ml-agents/mlagents/trainers/ppo/optimizer_torch.py
        self.optimizer.step()

        ModelUtils.soft_update(
-            self.policy.actor_critic.critic, self.policy.actor_critic.target, .001
+            self.policy.actor_critic.critic, self.policy.actor_critic.target, 1.
        )

        update_stats = {