ml-agents/ml-agents-envs/mlagents/envs/subprocess_environment.py


								from typing import *

								import copy

								import numpy as np

								import cloudpickle


								from mlagents.envs import UnityEnvironment

								from multiprocessing import Process, Pipe

								from multiprocessing.connection import Connection

								from mlagents.envs.base_unity_environment import BaseUnityEnvironment

								from mlagents.envs import AllBrainInfo, UnityEnvironmentException


								class EnvironmentCommand(NamedTuple):

								    name: str

								    payload: Any = None


								class EnvironmentResponse(NamedTuple):

								    name: str

								    worker_id: int

								    payload: Any


								class UnityEnvWorker(NamedTuple):

								    process: Process

								    worker_id: int

								    conn: Connection


								    def send(self, name: str, payload=None):

								        try:

								            cmd = EnvironmentCommand(name, payload)

								            self.conn.send(cmd)

								        except (BrokenPipeError, EOFError):

								            raise KeyboardInterrupt


								    def recv(self) -> EnvironmentResponse:

								        try:

								            response: EnvironmentResponse = self.conn.recv()

								            return response

								        except (BrokenPipeError, EOFError):

								            raise KeyboardInterrupt


								    def close(self):

								        try:

								            self.conn.send(EnvironmentCommand("close"))

								        except (BrokenPipeError, EOFError):

								            pass

								        self.process.join()


								def worker(parent_conn: Connection, pickled_env_factory: str, worker_id: int):

								    env_factory: Callable[[int], UnityEnvironment] = cloudpickle.loads(

								        pickled_env_factory

								    )

								    env = env_factory(worker_id)


								    def _send_response(cmd_name, payload):

								        parent_conn.send(EnvironmentResponse(cmd_name, worker_id, payload))


								    try:

								        while True:

								            cmd: EnvironmentCommand = parent_conn.recv()

								            if cmd.name == "step":

								                vector_action, memory, text_action, value = cmd.payload

								                if env.global_done:

								                    all_brain_info = env.reset()

								                else:

								                    all_brain_info = env.step(vector_action, memory, text_action, value)

								                _send_response("step", all_brain_info)

								            elif cmd.name == "external_brains":

								                _send_response("external_brains", env.external_brains)

								            elif cmd.name == "reset_parameters":

								                _send_response("reset_parameters", env.reset_parameters)

								            elif cmd.name == "reset":

								                all_brain_info = env.reset(cmd.payload[0], cmd.payload[1])

								                _send_response("reset", all_brain_info)

								            elif cmd.name == "global_done":

								                _send_response("global_done", env.global_done)

								            elif cmd.name == "close":

								                break

								    except KeyboardInterrupt:

								        print("UnityEnvironment worker: keyboard interrupt")

								    finally:

								        env.close()


								class SubprocessUnityEnvironment(BaseUnityEnvironment):

								    def __init__(

								        self, env_factory: Callable[[int], BaseUnityEnvironment], n_env: int = 1

								    ):

								        self.envs = []

								        self.env_agent_counts = {}

								        self.waiting = False

								        for worker_id in range(n_env):

								            self.envs.append(self.create_worker(worker_id, env_factory))


								    @staticmethod

								    def create_worker(

								        worker_id: int, env_factory: Callable[[int], BaseUnityEnvironment]

								    ) -> UnityEnvWorker:

								        parent_conn, child_conn = Pipe()


								        # Need to use cloudpickle for the env factory function since function objects aren't picklable

								        # on Windows as of Python 3.6.

								        pickled_env_factory = cloudpickle.dumps(env_factory)

								        child_process = Process(

								            target=worker, args=(child_conn, pickled_env_factory, worker_id)

								        )

								        child_process.start()

								        return UnityEnvWorker(child_process, worker_id, parent_conn)


								    def step_async(

								        self, vector_action, memory=None, text_action=None, value=None

								    ) -> None:

								        if self.waiting:

								            raise UnityEnvironmentException(

								                "Tried to take an environment step bore previous step has completed."

								            )


								        agent_counts_cum = {}

								        for brain_name in self.env_agent_counts.keys():

								            agent_counts_cum[brain_name] = np.cumsum(self.env_agent_counts[brain_name])


								        # Split the actions provided by the previous set of agent counts, and send the step

								        # commands to the workers.

								        for worker_id, env in enumerate(self.envs):

								            env_actions = {}

								            env_memory = {}

								            env_text_action = {}

								            env_value = {}

								            for brain_name in self.env_agent_counts.keys():

								                start_ind = 0

								                if worker_id > 0:

								                    start_ind = agent_counts_cum[brain_name][worker_id - 1]

								                end_ind = agent_counts_cum[brain_name][worker_id]

								                if vector_action.get(brain_name) is not None:

								                    env_actions[brain_name] = vector_action[brain_name][

								                        start_ind:end_ind

								                    ]

								                if memory and memory.get(brain_name) is not None:

								                    env_memory[brain_name] = memory[brain_name][start_ind:end_ind]

								                if text_action and text_action.get(brain_name) is not None:

								                    env_text_action[brain_name] = text_action[brain_name][

								                        start_ind:end_ind

								                    ]

								                if value and value.get(brain_name) is not None:

								                    env_value[brain_name] = value[brain_name][start_ind:end_ind]


								            env.send("step", (env_actions, env_memory, env_text_action, env_value))

								        self.waiting = True


								    def step_await(self) -> AllBrainInfo:

								        if not self.waiting:

								            raise UnityEnvironmentException(

								                "Tried to await an environment step, but no async step was taken."

								            )


								        steps = [self.envs[i].recv() for i in range(len(self.envs))]

								        self._get_agent_counts(map(lambda s: s.payload, steps))

								        combined_brain_info = self._merge_step_info(steps)

								        self.waiting = False

								        return combined_brain_info


								    def step(

								        self, vector_action=None, memory=None, text_action=None, value=None

								    ) -> AllBrainInfo:

								        self.step_async(vector_action, memory, text_action, value)

								        return self.step_await()


								    def reset(self, config=None, train_mode=True) -> AllBrainInfo:

								        self._broadcast_message("reset", (config, train_mode))

								        reset_results = [self.envs[i].recv() for i in range(len(self.envs))]

								        self._get_agent_counts(map(lambda r: r.payload, reset_results))


								        return self._merge_step_info(reset_results)


								    @property

								    def global_done(self):

								        self._broadcast_message("global_done")

								        dones: List[EnvironmentResponse] = [

								            self.envs[i].recv().payload for i in range(len(self.envs))

								        ]

								        return all(dones)


								    @property

								    def external_brains(self):

								        self.envs[0].send("external_brains")

								        return self.envs[0].recv().payload


								    @property

								    def reset_parameters(self):

								        self.envs[0].send("reset_parameters")

								        return self.envs[0].recv().payload


								    def close(self):

								        for env in self.envs:

								            env.close()


								    def _get_agent_counts(self, step_list: Iterable[AllBrainInfo]):

								        for i, step in enumerate(step_list):

								            for brain_name, brain_info in step.items():

								                if brain_name not in self.env_agent_counts.keys():

								                    self.env_agent_counts[brain_name] = [0] * len(self.envs)

								                self.env_agent_counts[brain_name][i] = len(brain_info.agents)


								    @staticmethod

								    def _merge_step_info(env_steps: List[EnvironmentResponse]) -> AllBrainInfo:

								        accumulated_brain_info: AllBrainInfo = None

								        for env_step in env_steps:

								            all_brain_info: AllBrainInfo = env_step.payload

								            for brain_name, brain_info in all_brain_info.items():

								                for i in range(len(brain_info.agents)):

								                    brain_info.agents[i] = (

								                        str(env_step.worker_id) + "-" + str(brain_info.agents[i])

								                    )

								                if accumulated_brain_info:

								                    accumulated_brain_info[brain_name].merge(brain_info)

								            if not accumulated_brain_info:

								                accumulated_brain_info = copy.deepcopy(all_brain_info)

								        return accumulated_brain_info


								    def _broadcast_message(self, name: str, payload=None):

								        for env in self.envs:

								            env.send(name, payload)