ml-agents/ml-agents/mlagents/trainers/ppo/policy.py


								import logging

								import numpy as np


								from mlagents.trainers.ppo.models import PPOModel

								from mlagents.trainers.policy import Policy


								logger = logging.getLogger("mlagents.trainers")


								class PPOPolicy(Policy):

								    def __init__(self, seed, brain, trainer_params, is_training, load):

								        """

								        Policy for Proximal Policy Optimization Networks.

								        :param seed: Random seed.

								        :param brain: Assigned Brain object.

								        :param trainer_params: Defined training parameters.

								        :param is_training: Whether the model should be trained.

								        :param load: Whether a pre-trained model will be loaded or a new one created.

								        """

								        super().__init__(seed, brain, trainer_params)

								        self.has_updated = False

								        self.use_curiosity = bool(trainer_params['use_curiosity'])


								        with self.graph.as_default():

								            self.model = PPOModel(brain,

								                                  lr=float(trainer_params['learning_rate']),

								                                  h_size=int(trainer_params['hidden_units']),

								                                  epsilon=float(trainer_params['epsilon']),

								                                  beta=float(trainer_params['beta']),

								                                  max_step=float(trainer_params['max_steps']),

								                                  normalize=trainer_params['normalize'],

								                                  use_recurrent=trainer_params['use_recurrent'],

								                                  num_layers=int(trainer_params['num_layers']),

								                                  m_size=self.m_size,

								                                  use_curiosity=bool(trainer_params['use_curiosity']),

								                                  curiosity_strength=float(trainer_params['curiosity_strength']),

								                                  curiosity_enc_size=float(trainer_params['curiosity_enc_size']),

								                                  seed=seed)


								        if load:

								            self._load_graph()

								        else:

								            self._initialize_graph()


								        self.inference_dict = {'action': self.model.output, 'log_probs': self.model.all_log_probs,

								                               'value': self.model.value, 'entropy': self.model.entropy,

								                               'learning_rate': self.model.learning_rate}

								        if self.use_continuous_act:

								            self.inference_dict['pre_action'] = self.model.output_pre

								        if self.use_recurrent:

								            self.inference_dict['memory_out'] = self.model.memory_out

								        if is_training and self.use_vec_obs and trainer_params['normalize']:

								            self.inference_dict['update_mean'] = self.model.update_mean

								            self.inference_dict['update_variance'] = self.model.update_variance


								        self.update_dict = {'value_loss': self.model.value_loss,

								                            'policy_loss': self.model.policy_loss,

								                            'update_batch': self.model.update_batch}

								        if self.use_curiosity:

								            self.update_dict['forward_loss'] = self.model.forward_loss

								            self.update_dict['inverse_loss'] = self.model.inverse_loss


								    def evaluate(self, brain_info):

								        """

								        Evaluates policy for the agent experiences provided.

								        :param brain_info: BrainInfo object containing inputs.

								        :return: Outputs from network as defined by self.inference_dict.

								        """

								        feed_dict = {self.model.batch_size: len(brain_info.vector_observations),

								                     self.model.sequence_length: 1}

								        epsilon = None

								        if self.use_recurrent:

								            if not self.use_continuous_act:

								                feed_dict[self.model.prev_action] = brain_info.previous_vector_actions.reshape(

								                    [-1, len(self.model.act_size)])

								            if brain_info.memories.shape[1] == 0:

								                brain_info.memories = self.make_empty_memory(len(brain_info.agents))

								            feed_dict[self.model.memory_in] = brain_info.memories

								        if self.use_continuous_act:

								            epsilon = np.random.normal(

								                size=(len(brain_info.vector_observations), self.model.act_size[0]))

								            feed_dict[self.model.epsilon] = epsilon

								        feed_dict = self._fill_eval_dict(feed_dict, brain_info)

								        run_out = self._execute_model(feed_dict, self.inference_dict)

								        if self.use_continuous_act:

								            run_out['random_normal_epsilon'] = epsilon

								        return run_out


								    def update(self, mini_batch, num_sequences):

								        """

								        Updates model using buffer.

								        :param num_sequences: Number of trajectories in batch.

								        :param mini_batch: Experience batch.

								        :return: Output from update process.

								        """

								        feed_dict = {self.model.batch_size: num_sequences,

								                     self.model.sequence_length: self.sequence_length,

								                     self.model.mask_input: mini_batch['masks'].flatten(),

								                     self.model.returns_holder: mini_batch['discounted_returns'].flatten(),

								                     self.model.old_value: mini_batch['value_estimates'].flatten(),

								                     self.model.advantage: mini_batch['advantages'].reshape([-1, 1]),

								                     self.model.all_old_log_probs: mini_batch['action_probs'].reshape(

								                         [-1, sum(self.model.act_size)])}

								        if self.use_continuous_act:

								            feed_dict[self.model.output_pre] = mini_batch['actions_pre'].reshape(

								                [-1, self.model.act_size[0]])

								            feed_dict[self.model.epsilon] = mini_batch['random_normal_epsilon'].reshape(

								                [-1, self.model.act_size[0]])

								        else:

								            feed_dict[self.model.action_holder] = mini_batch['actions'].reshape(

								                [-1, len(self.model.act_size)])

								            if self.use_recurrent:

								                feed_dict[self.model.prev_action] = mini_batch['prev_action'].reshape(

								                    [-1, len(self.model.act_size)])

								            feed_dict[self.model.action_masks] = mini_batch['action_mask'].reshape(

								                [-1, sum(self.brain.vector_action_space_size)])

								        if self.use_vec_obs:

								            feed_dict[self.model.vector_in] = mini_batch['vector_obs'].reshape(

								                [-1, self.vec_obs_size])

								            if self.use_curiosity:

								                feed_dict[self.model.next_vector_in] = mini_batch['next_vector_in'].reshape(

								                    [-1, self.vec_obs_size])

								        if self.model.vis_obs_size > 0:

								            for i, _ in enumerate(self.model.visual_in):

								                _obs = mini_batch['visual_obs%d' % i]

								                if self.sequence_length > 1 and self.use_recurrent:

								                    (_batch, _seq, _w, _h, _c) = _obs.shape

								                    feed_dict[self.model.visual_in[i]] = _obs.reshape([-1, _w, _h, _c])

								                else:

								                    feed_dict[self.model.visual_in[i]] = _obs

								            if self.use_curiosity:

								                for i, _ in enumerate(self.model.visual_in):

								                    _obs = mini_batch['next_visual_obs%d' % i]

								                    if self.sequence_length > 1 and self.use_recurrent:

								                        (_batch, _seq, _w, _h, _c) = _obs.shape

								                        feed_dict[self.model.next_visual_in[i]] = _obs.reshape([-1, _w, _h, _c])

								                    else:

								                        feed_dict[self.model.next_visual_in[i]] = _obs

								        if self.use_recurrent:

								            mem_in = mini_batch['memory'][:, 0, :]

								            feed_dict[self.model.memory_in] = mem_in

								        self.has_updated = True

								        run_out = self._execute_model(feed_dict, self.update_dict)

								        return run_out


								    def get_intrinsic_rewards(self, curr_info, next_info):

								        """

								        Generates intrinsic reward used for Curiosity-based training.

								        :BrainInfo curr_info: Current BrainInfo.

								        :BrainInfo next_info: Next BrainInfo.

								        :return: Intrinsic rewards for all agents.

								        """

								        if self.use_curiosity:

								            if len(curr_info.agents) == 0:

								                return []


								            feed_dict = {self.model.batch_size: len(next_info.vector_observations),

								                         self.model.sequence_length: 1}

								            if self.use_continuous_act:

								                feed_dict[self.model.selected_actions] = next_info.previous_vector_actions

								            else:

								                feed_dict[self.model.action_holder] = next_info.previous_vector_actions

								            for i in range(self.model.vis_obs_size):

								                feed_dict[self.model.visual_in[i]] = curr_info.visual_observations[i]

								                feed_dict[self.model.next_visual_in[i]] = next_info.visual_observations[i]

								            if self.use_vec_obs:

								                feed_dict[self.model.vector_in] = curr_info.vector_observations

								                feed_dict[self.model.next_vector_in] = next_info.vector_observations

								            if self.use_recurrent:

								                if curr_info.memories.shape[1] == 0:

								                    curr_info.memories = self.make_empty_memory(len(curr_info.agents))

								                feed_dict[self.model.memory_in] = curr_info.memories

								            intrinsic_rewards = self.sess.run(self.model.intrinsic_reward,

								                                              feed_dict=feed_dict) * float(self.has_updated)

								            return intrinsic_rewards

								        else:

								            return None


								    def get_value_estimate(self, brain_info, idx):

								        """

								        Generates value estimates for bootstrapping.

								        :param brain_info: BrainInfo to be used for bootstrapping.

								        :param idx: Index in BrainInfo of agent.

								        :return: Value estimate.

								        """

								        feed_dict = {self.model.batch_size: 1, self.model.sequence_length: 1}

								        for i in range(len(brain_info.visual_observations)):

								            feed_dict[self.model.visual_in[i]] = [brain_info.visual_observations[i][idx]]

								        if self.use_vec_obs:

								            feed_dict[self.model.vector_in] = [brain_info.vector_observations[idx]]

								        if self.use_recurrent:

								            if brain_info.memories.shape[1] == 0:

								                brain_info.memories = self.make_empty_memory(len(brain_info.agents))

								            feed_dict[self.model.memory_in] = [brain_info.memories[idx]]

								        if not self.use_continuous_act and self.use_recurrent:

								            feed_dict[self.model.prev_action] = brain_info.previous_vector_actions[idx].reshape(

								                [-1, len(self.model.act_size)])

								        value_estimate = self.sess.run(self.model.value, feed_dict)

								        return value_estimate


								    def get_last_reward(self):

								        """

								        Returns the last reward the trainer has had

								        :return: the new last reward

								        """

								        return self.sess.run(self.model.last_reward)


								    def update_reward(self, new_reward):

								        """

								        Updates reward value for policy.

								        :param new_reward: New reward to save.

								        """

								        self.sess.run(self.model.update_reward,

								                      feed_dict={self.model.new_reward: new_reward})