Mulkti-discrete now working

5 年前 · a5b5b109
--- a/ml-agents/mlagents/trainers/optimizer/torch_optimizer.py
+++ b/ml-agents/mlagents/trainers/optimizer/torch_optimizer.py
        else:
            visual_obs = []

-        next_obs = [torch.Tensor(next_obs[0])]
+        next_obs = np.concatenate(next_obs, axis=-1)
+        next_obs = [torch.Tensor(next_obs)]

        value_estimates, mean_value = self.policy.critic(vector_obs, visual_obs)

--- a/ml-agents/mlagents/trainers/ppo/optimizer_torch.py
+++ b/ml-agents/mlagents/trainers/ppo/optimizer_torch.py
        vec_obs = [torch.Tensor(vec_obs)]
        act_masks = torch.Tensor(np.array(batch["action_mask"]))
        actions = [torch.Tensor(np.array(batch["actions"]))]
+        actions = list(actions[0].permute([1, 0]))

        if self.policy.use_vis_obs:
            vis_obs = np.array(batch["visual_obs"])