added opp, decay eps removed

5 年前 · 13c2a209
--- a/Project/Assets/ML-Agents/Examples/Tennis/Prefabs/TennisArea.prefab
+++ b/Project/Assets/ML-Agents/Examples/Tennis/Prefabs/TennisArea.prefab
  m_Name: 
  m_EditorClassIdentifier: 
  m_BrainParameters:
-    vectorObservationSize: 10
+    vectorObservationSize: 14
    numStackedVectorObservations: 3
    vectorActionSize: 03000000
    vectorActionDescriptions: []
  m_Name: 
  m_EditorClassIdentifier: 
  m_BrainParameters:
-    vectorObservationSize: 10
+    vectorObservationSize: 14
    numStackedVectorObservations: 3
    vectorActionSize: 03000000
    vectorActionDescriptions: []
--- a/Project/Assets/ML-Agents/Examples/Tennis/Scripts/TennisAgent.cs
+++ b/Project/Assets/ML-Agents/Examples/Tennis/Scripts/TennisAgent.cs
        sensor.AddObservation(m_InvertMult * m_BallRb.velocity.x / 40f);
        sensor.AddObservation(m_BallRb.velocity.y / 60f);

-        //sensor.AddObservation(m_InvertMult * (opponent.transform.position.x - myArea.transform.position.x) / -25f);
-        //sensor.AddObservation((opponent.transform.position.y - myArea.transform.position.y) / -7f);
-        //sensor.AddObservation(m_InvertMult * m_OpponentRb.velocity.x / 20f);
-        //sensor.AddObservation(m_OpponentRb.velocity.y / 20f);
+        sensor.AddObservation(m_InvertMult * (opponent.transform.position.x - myArea.transform.position.x) / -25f);
+        sensor.AddObservation((opponent.transform.position.y - myArea.transform.position.y) / -7f);
+        sensor.AddObservation(m_InvertMult * m_OpponentRb.velocity.x / 20f);
+        sensor.AddObservation(m_OpponentRb.velocity.y / 20f);

        //sensor.AddObservation(m_InvertMult * gameObject.transform.rotation.z);
        sensor.AddObservation((m_InvertMult * (gameObject.transform.rotation.eulerAngles.z - (1f - m_InvertMult) * 180f) - 35f) / 125f);
--- a/config/trainer_config.yaml
+++ b/config/trainer_config.yaml
    batch_size: 2048
    buffer_size: 20480
    hidden_units: 512
-    beta: 1.0e-3
+    beta: 1.0e-2
    threaded: false
    time_horizon: 1000
    self_play:
--- a/ml-agents/mlagents/trainers/ppo/optimizer.py
+++ b/ml-agents/mlagents/trainers/ppo/optimizer.py
        )
        advantage = tf.expand_dims(self.advantage, -1)

-        decay_epsilon = tf.train.polynomial_decay(
-            epsilon, self.policy.global_step, max_step, 0.1, power=1.0
-        )
+        # decay_epsilon = tf.train.polynomial_decay(
+        #    epsilon, self.policy.global_step, max_step, 0.1, power=1.0
+        # )
+        decay_epsilon = tf.Variable(epsilon)
        decay_beta = tf.Variable(beta)

        value_losses = []