Merge branch 'internal-policy-ghost-alternate' into soccer-2v1

5 年前 · 89db8428
--- a/ml-agents/mlagents/trainers/ghost/trainer.py
+++ b/ml-agents/mlagents/trainers/ghost/trainer.py
        brain_name = parsed_behavior_id.brain_name
        self.trainer.export_model(brain_name)

-    def create_policy(self, brain_parameters: BrainParameters) -> TFPolicy:
+    def create_policy(
+        self, parsed_behavior_id: BehaviorIdentifiers, brain_parameters: BrainParameters
+    ) -> TFPolicy:
-        """
-        return self.trainer.create_policy(brain_parameters)
-
-    def add_policy(
-        self, parsed_behavior_id: BehaviorIdentifiers, brain_parameters: BrainParameters
-    ) -> None:
-        """
-        Adds policy to trainer. The first policy encountered sets the wrapped
+        The first policy encountered sets the wrapped
-        :param name_behavior_id: Behavior ID that the policy should belong to.
-        :param policy: Policy to associate with name_behavior_id.
-        name_behavior_id = parsed_behavior_id.behavior_id
-        team_id = parsed_behavior_id.team_id
-        self.controller.subscribe_team_id(team_id, self)
-        policy = self.create_policy(brain_parameters)
+        policy = self.trainer.create_policy(parsed_behavior_id, brain_parameters)
-        self.policies[name_behavior_id] = policy
-
-        self._name_to_parsed_behavior_id[name_behavior_id] = parsed_behavior_id
-        # for saving/swapping snapshots
+        team_id = parsed_behavior_id.team_id
+        self.controller.subscribe_team_id(team_id, self)
-            # creates an internal trainer policy. This always contains the current learning policy
-            # parameterization and is the object the wrapped trainer uses to compute gradients.
-            self.trainer.add_policy(parsed_behavior_id, brain_parameters)
-            internal_trainer_policy = self.trainer.get_policy(
-                parsed_behavior_id.brain_name
+            internal_trainer_policy = self.trainer.create_policy(
+                parsed_behavior_id, brain_parameters
-
-            # initialize ghost level policy to have the same weights
-
+            self.trainer.add_policy(parsed_behavior_id, internal_trainer_policy)
+        return policy
+
+    def add_policy(
+        self, parsed_behavior_id: BehaviorIdentifiers, policy: TFPolicy
+    ) -> None:
+        """
+        Adds policy to GhostTrainer.
+        :param parsed_behavior_id: Behavior ID that the policy should belong to.
+        :param policy: Policy to associate with name_behavior_id.
+        """
+        name_behavior_id = parsed_behavior_id.behavior_id
+        self._name_to_parsed_behavior_id[name_behavior_id] = parsed_behavior_id
+        self.policies[name_behavior_id] = policy

    def get_policy(self, name_behavior_id: str) -> TFPolicy:
        """
--- a/ml-agents/mlagents/trainers/ppo/trainer.py
+++ b/ml-agents/mlagents/trainers/ppo/trainer.py
        self._check_param_keys()
        self.load = load
        self.seed = seed
-        self.policy: TFPolicy = None  # type: ignore
+        self.policy: NNPolicy = None  # type: ignore

    def _check_param_keys(self):
        super()._check_param_keys()
                self._stats_reporter.add_stat(stat, val)
        self._clear_update_buffer()

-    def create_policy(self, brain_parameters: BrainParameters) -> TFPolicy:
+    def create_policy(
+        self, parsed_behavior_id: BehaviorIdentifiers, brain_parameters: BrainParameters
+    ) -> TFPolicy:
        """
        Creates a PPO policy to trainers list of policies.
        :param brain_parameters: specifications for policy construction
        return policy

    def add_policy(
-        self, parsed_behavior_id: BehaviorIdentifiers, brain_parameters: BrainParameters
+        self, parsed_behavior_id: BehaviorIdentifiers, policy: TFPolicy
    ) -> None:
        """
        Adds policy to trainer.
                    self.__class__.__name__
                )
            )
-        self.policy = self.create_policy(brain_parameters)
+        if not isinstance(policy, NNPolicy):
+            raise RuntimeError("Non-NNPolicy passed to PPOTrainer.add_policy()")
+        self.policy = policy
-        self.step = self.policy.get_current_step()
+        self.step = policy.get_current_step()
        self.next_summary_step = self._get_next_summary_step()

    def get_policy(self, name_behavior_id: str) -> TFPolicy:
--- a/ml-agents/mlagents/trainers/sac/trainer.py
+++ b/ml-agents/mlagents/trainers/sac/trainer.py
        self._check_param_keys()
        self.load = load
        self.seed = seed
-        self.policy: TFPolicy = None  # type: ignore
+        self.policy: NNPolicy = None  # type: ignore
        self.optimizer: SACOptimizer = None  # type: ignore

        self.step = 0
            self.update_sac_policy()
            self.update_reward_signals()

-    def create_policy(self, brain_parameters: BrainParameters) -> TFPolicy:
+    def create_policy(
+        self, parsed_behavior_id: BehaviorIdentifiers, brain_parameters: BrainParameters
+    ) -> TFPolicy:
        policy = NNPolicy(
            self.seed,
            brain_parameters,
            self._stats_reporter.add_stat(stat, np.mean(stat_list))

    def add_policy(
-        self, parsed_behavior_id: BehaviorIdentifiers, brain_parameters: BrainParameters
+        self, parsed_behavior_id: BehaviorIdentifiers, policy: TFPolicy
    ) -> None:
        """
        Adds policy to trainer.
                    self.__class__.__name__
                )
            )
-        self.policy = self.create_policy(brain_parameters)
+        if not isinstance(policy, NNPolicy):
+            raise RuntimeError("Non-SACPolicy passed to SACTrainer.add_policy()")
+        self.policy = policy
-        self.step = self.policy.get_current_step()
+        self.step = policy.get_current_step()
        self.next_summary_step = self._get_next_summary_step()

    def get_policy(self, name_behavior_id: str) -> TFPolicy:
--- a/ml-agents/mlagents/trainers/tests/test_ghost.py
+++ b/ml-agents/mlagents/trainers/tests/test_ghost.py
    trainer_params = dummy_config
    trainer = PPOTrainer(mock_brain.brain_name, 0, trainer_params, True, False, 0, "0")
    trainer.seed = 1
-    policy = trainer.create_policy(mock_brain)
+    policy = trainer.create_policy(mock_brain.brain_name, mock_brain)
-    to_load_policy = trainer.create_policy(mock_brain)
+    to_load_policy = trainer.create_policy(mock_brain.brain_name, mock_brain)
    to_load_policy.create_tf_graph()
    to_load_policy.init_load_weights()

    parsed_behavior_id0 = BehaviorIdentifiers.from_name_behavior_id(
        brain_params_team0.brain_name
    )
-    trainer.add_policy(parsed_behavior_id0, brain_params_team0)
+    policy = trainer.create_policy(parsed_behavior_id0, brain_params_team0)
+    trainer.add_policy(parsed_behavior_id0, policy)
    trajectory_queue0 = AgentManagerQueue(brain_params_team0.brain_name)
    trainer.subscribe_trajectory_queue(trajectory_queue0)

    )
-    trainer.add_policy(parsed_behavior_id1, brain_params_team1)
+    policy = trainer.create_policy(parsed_behavior_id1, brain_params_team1)
+    trainer.add_policy(parsed_behavior_id1, policy)
    trajectory_queue1 = AgentManagerQueue(brain_params_team1.brain_name)
    trainer.subscribe_trajectory_queue(trajectory_queue1)


    # First policy encountered becomes policy trained by wrapped PPO
    # This queue should remain empty after swap snapshot
-    trainer.add_policy(parsed_behavior_id0, brain_params_team0)
+    policy = trainer.create_policy(parsed_behavior_id0, brain_params_team0)
+    trainer.add_policy(parsed_behavior_id0, policy)
    policy_queue0 = AgentManagerQueue(brain_params_team0.brain_name)
    trainer.publish_policy_queue(policy_queue0)

    )
-    trainer.add_policy(parsed_behavior_id1, brain_params_team1)
+    policy = trainer.create_policy(parsed_behavior_id1, brain_params_team1)
+    trainer.add_policy(parsed_behavior_id1, policy)
    policy_queue1 = AgentManagerQueue(brain_params_team1.brain_name)
    trainer.publish_policy_queue(policy_queue1)

--- a/ml-agents/mlagents/trainers/tests/test_ppo.py
+++ b/ml-agents/mlagents/trainers/tests/test_ppo.py
    trainer_params["reward_signals"]["curiosity"]["encoding_size"] = 128

    trainer = PPOTrainer(mock_brain.brain_name, 0, trainer_params, True, False, 0, "0")
-    trainer.add_policy(mock_brain.brain_name, mock_brain)
+    policy = trainer.create_policy(mock_brain.brain_name, mock_brain)
+    trainer.add_policy(mock_brain.brain_name, policy)
    # Test update with sequence length smaller than batch size
    buffer = mb.simulate_rollout(BUFFER_INIT_SAMPLES, mock_brain)
    # Mock out reward signal eval
    dummy_config["summary_path"] = "./summaries/test_trainer_summary"
    dummy_config["model_path"] = "./models/test_trainer_models/TestModel"
    trainer = PPOTrainer(brain_params, 0, dummy_config, True, False, 0, "0")
-    trainer.add_policy(brain_params.brain_name, brain_params)
+    policy = trainer.create_policy(brain_params.brain_name, brain_params)
+    trainer.add_policy(brain_params.brain_name, policy)
    trajectory_queue = AgentManagerQueue("testbrain")
    trainer.subscribe_trajectory_queue(trajectory_queue)
    time_horizon = 15
--- a/ml-agents/mlagents/trainers/tests/test_sac.py
+++ b/ml-agents/mlagents/trainers/tests/test_sac.py
    trainer_params["model_path"] = str(tmpdir)
    trainer_params["save_replay_buffer"] = True
    trainer = SACTrainer(mock_brain.brain_name, 1, trainer_params, True, False, 0, 0)
-    trainer.add_policy(mock_brain.brain_name, mock_brain)
-    policy = trainer.get_policy(mock_brain.brain_name)
+    policy = trainer.create_policy(mock_brain.brain_name, mock_brain)
+    trainer.add_policy(mock_brain.brain_name, policy)

    trainer.update_buffer = mb.simulate_rollout(BUFFER_INIT_SAMPLES, policy.brain)
    buffer_len = trainer.update_buffer.num_experiences
    trainer2 = SACTrainer(mock_brain.brain_name, 1, trainer_params, True, True, 0, 0)

-    trainer2.add_policy(mock_brain.brain_name, mock_brain)
+    policy = trainer2.create_policy(mock_brain.brain_name, mock_brain)
+    trainer2.add_policy(mock_brain.brain_name, policy)
    assert trainer2.update_buffer.num_experiences == buffer_len


    dummy_config["summary_path"] = "./summaries/test_trainer_summary"
    dummy_config["model_path"] = "./models/test_trainer_models/TestModel"
    trainer = SACTrainer(brain_params, 0, dummy_config, True, False, 0, "0")
-    trainer.add_policy(brain_params.brain_name, brain_params)
+    policy = trainer.create_policy(brain_params.brain_name, brain_params)
+    trainer.add_policy(brain_params.brain_name, policy)

    trajectory_queue = AgentManagerQueue("testbrain")
    trainer.subscribe_trajectory_queue(trajectory_queue)
--- a/ml-agents/mlagents/trainers/trainer/trainer.py
+++ b/ml-agents/mlagents/trainers/trainer/trainer.py
        pass

    @abc.abstractmethod
-    def create_policy(self, brain_parameters: BrainParameters) -> TFPolicy:
+    def create_policy(
+        self, parsed_behavior_id: BehaviorIdentifiers, brain_parameters: BrainParameters
+    ) -> TFPolicy:
        """
        Creates policy
        """
    def add_policy(
-        self, parsed_behavior_id: BehaviorIdentifiers, brain_parameters: BrainParameters
+        self, parsed_behavior_id: BehaviorIdentifiers, policy: TFPolicy
    ) -> None:
        """
        Adds policy to trainer.
--- a/ml-agents/mlagents/trainers/trainer_controller.py
+++ b/ml-agents/mlagents/trainers/trainer_controller.py
            trainer = self.trainer_factory.generate(brain_name)
            self.trainers[brain_name] = trainer

-        trainer.add_policy(
+        policy = trainer.create_policy(
-        policy = trainer.get_policy(name_behavior_id)
+        trainer.add_policy(parsed_behavior_id, policy)

        agent_manager = AgentManager(
            policy,