浏览代码

fixed all the links

/develop-generalizationTraining-TrainerController
Vincent Gao 7 年前
当前提交
5ae5c7c2
共有 8 个文件被更改,包括 57 次插入57 次删除
  1. 6
      docs/localized/zh-CN/README.md
  2. 4
      docs/localized/zh-CN/docs/Getting-Started-with-Balance-Ball.md
  3. 8
      docs/localized/zh-CN/docs/Installation.md
  4. 6
      docs/localized/zh-CN/docs/Learning-Environment-Create-New.md
  5. 14
      docs/localized/zh-CN/docs/Learning-Environment-Design.md
  6. 2
      docs/localized/zh-CN/docs/Learning-Environment-Examples.md
  7. 28
      docs/localized/zh-CN/docs/ML-Agents-Overview.md
  8. 46
      docs/localized/zh-CN/docs/Readme.md

6
docs/localized/zh-CN/README.md


**除了安装和使用说明外,如需更多信息,
请参阅我们的[文档主页](docs/Readme.md)。**如果您使用的
是 v0.3 之前的 ML-Agents 版本,强烈建议您参考
我们的[关于迁移到 v0.3 的指南](docs/Migrating-v0.3.md)。
我们的[关于迁移到 v0.3 的指南](/docs/Migrating-v0.3.md)。
我们还发布了一系列与 ML-Agents 相关的博客文章:
- reinforcement learning(强化学习)概念概述

ML-Agents 是一个开源项目,我们鼓励并欢迎大家贡献自己的力量。
如果您想做出贡献,请务必查看我们的
[贡献准则](CONTRIBUTING.md)和
[行为准则](CODE_OF_CONDUCT.md)。
[贡献准则](/CONTRIBUTING.md)和
[行为准则](/CODE_OF_CONDUCT.md)。
您可以通过 Unity Connect 和 GitHub 与我们
以及更广泛的社区进行交流:

4
docs/localized/zh-CN/docs/Getting-Started-with-Balance-Ball.md


有了一个包含模拟环境的 Unity 可执行文件后,现在我们
可以执行训练。为了首先确保您的环境和 Python
API 能正常工作,您可以使用 `python/Basics`
[Jupyter 笔记本](Background-Jupyter.md)。
[Jupyter 笔记本](/docs/Background-Jupyter.md)。
此笔记本包含了 API 功能的简单演练。
`Basics` 中,务必将 `env_name` 设置为您先前构建的
环境文件的名称。

从 TensorBoard 中,您将看到摘要统计信息:
* Lesson - 只有在进行
[课程训练](Training-Curriculum-Learning.md)时才有意义。
[课程训练](/docs/Training-Curriculum-Learning.md)时才有意义。
3D Balance Ball 环境中不使用此项。
* Cumulative Reward - 所有 agent 的平均累积场景奖励。
在成功训练期间应该增大。

8
docs/localized/zh-CN/docs/Installation.md


为了使用 ML-Agents,您需要安装 Python 3 以及
[要求文件](../python/requirements.txt)中列出的依赖项。
一些主要的依赖项包括:
- [TensorFlow](Background-TensorFlow.md)
- [Jupyter](Background-Jupyter.md)
- [TensorFlow](/docs/Background-TensorFlow.md)
- [Jupyter](/docs/Background-Jupyter.md)
如果您是刚接触 Python 和 TensorFlow 的 Windows 用户,请遵循[此指南](Installation-Windows.md)来设置 Python 环境。
如果您是刚接触 Python 和 TensorFlow 的 Windows 用户,请遵循[此指南](/docs/Installation-Windows.md)来设置 Python 环境。
### Mac 和 Unix 用户

## 基于 Docker 的安装(测试阶段)
如果您想使用 Docker for ML-Agents,请按照
[该指南](Using-Docker.md)进行操作。
[该指南](/docs/Using-Docker.md)进行操作。
## Unity 包

6
docs/localized/zh-CN/docs/Learning-Environment-Create-New.md


3. 将一个或多个 Brain 对象作为 Academy 的子级添加到场景中。
4. 实现 Agent 子类。Agent 子类定义了必要的代码供 agent 用于观测自身环境、执行指定动作以及计算用于强化训练的奖励。您还可以实现可选方法,从而在 agent 完成任务或任务失败时重置 agent。
5. 将 Agent 子类添加到相应的游戏对象,通常是在场景内表示模拟中的 agent 的对象。必须为每个 Agent 对象分配一个 Brain 对象。
6. 如果要进行训练,应将 Brain 类型设置为 External 并[执行训练过程](Training-ML-Agents.md)。
6. 如果要进行训练,应将 Brain 类型设置为 External 并[执行训练过程](/docs/Training-ML-Agents.md)。
**注意:**如果您不熟悉 Unity,而本教程中未充分讲解 Editor 任务的情况下,请参阅 Unity 手册中的[了解界面](https://docs.unity3d.com/Manual/LearningtheInterface.html)。

**Play** 运行场景,并用 WASD 键在平台上移动 agent。确保在 Unity Editor Console 窗口中没有显示任何错误,并且 agent 在到达目标或掉下平台时会重置。请注意,对于较复杂的调试,ML-Agents SDK 提供了一个方便的 Monitor 类,您可以使用该类轻松地在 Game 窗口中显示 agent 状态信息。
您可以执行一个额外的测试是,首先使用 `python/Basics`
[Jupyter Notebook](Background-Jupyter.md)
[Jupyter Notebook](/docs/Background-Jupyter.md)
现在可以开始训练 Agent 了。为了准备进行训练,必须首先将 **Brain Type****Player** 更改为 **External**。此后的过程与[训练 ML-Agents](Training-ML-Agents.md) 中所述的过程相同。
现在可以开始训练 Agent 了。为了准备进行训练,必须首先将 **Brain Type****Player** 更改为 **External**。此后的过程与[训练 ML-Agents](/docs/Training-ML-Agents.md) 中所述的过程相同。
## 回顾:场景布局

14
docs/localized/zh-CN/docs/Learning-Environment-Design.md


ML-Agents 使用一种称为 [Proximal Policy Optimization (PPO)](https://blog.openai.com/openai-baselines-ppo/) 的 reinforcement learning(强化学习)技术。PPO 使用神经网络来逼近理想函数;这种理想函数将 agent 的观测结果映射为 agent 在给定状态下可以采取的最佳动作。ML-Agents PPO 算法在 TensorFlow 中实现,并在单独的 Python 过程中运行(通过一个socket与正在运行的 Unity 应用程序进行通信)。
**注意:**如果您并非要专门研究机器学习和 reinforcement learning(强化学习)主题,只想训练 agent 完成任务,则可以将 PPO 训练视为一个_黑盒_。在 Unity 内部以及在 Python 训练方面有一些与训练相关的参数可进行调整,但您不需要深入了解算法本身就可以成功创建和训练 agent。[训练 ML-Agents](Training-ML-Agents.md)提供了执行训练过程的逐步操作程序。
**注意:**如果您并非要专门研究机器学习和 reinforcement learning(强化学习)主题,只想训练 agent 完成任务,则可以将 PPO 训练视为一个_黑盒_。在 Unity 内部以及在 Python 训练方面有一些与训练相关的参数可进行调整,但您不需要深入了解算法本身就可以成功创建和训练 agent。[训练 ML-Agents](/docs/Training-ML-Agents.md)提供了执行训练过程的逐步操作程序。
##模拟和训练过程

要创建训练环境,请扩展 Academy 和 Agent 类以实现上述方法。`Agent.CollectObservations()` 和 `Agent.AgentAction()` 函数必须实现;而其他方法是可选的,即是否需要实现它们取决于您的具体情况。
**注意:**在这里用到的 Python API 也可用于其他目的。例如,借助于该 API,您可以将 Unity 用作您自己的机器学习算法的模拟引擎。请参阅 [Python API](Python-API.md) 以了解更多信息。
**注意:**在这里用到的 Python API 也可用于其他目的。例如,借助于该 API,您可以将 Unity 用作您自己的机器学习算法的模拟引擎。请参阅 [Python API](/docs/Python-API.md) 以了解更多信息。
## 组织 Unity 场景

Academy 基类还定义了若干可以在 Unity Editor Inspector 中设置的重要属性。对于训练而言,这些属性中最重要的是 `Max Steps`,它决定了每个训练场景的持续时间。Academy 的步骤计数器达到此值后,它将调用 `AcademyReset()` 函数来开始下一轮模拟。
请参阅 [Academy](Learning-Environment-Design-Academy.md) 以查看 Academy 属性及其用途的完整列表。
请参阅 [Academy](/docs/Learning-Environment-Design-Academy.md) 以查看 Academy 属性及其用途的完整列表。
当我们使用 Brain 类的时候不需要使用其子类,而应该直接使用 Brain 这个类。Brain 的行为取决于 brain 的类型。在训练期间,应将 agent 上连接的 Brain 的 Brain Type 设置为 **External**。要使用经过训练的模型,请将模型文件导入 Unity 项目,并将对应 Brain 的 Brain Type 更改为 **Internal**。请参阅 [Brain](Learning-Environment-Design-Brains.md) 以了解有关使用不同类型的 Brain 的详细信息。如果四种内置的类型不能满足您的需求,您可以扩展 CoreBrain 类以创建其它的 Brain 类型。
当我们使用 Brain 类的时候不需要使用其子类,而应该直接使用 Brain 这个类。Brain 的行为取决于 brain 的类型。在训练期间,应将 agent 上连接的 Brain 的 Brain Type 设置为 **External**。要使用经过训练的模型,请将模型文件导入 Unity 项目,并将对应 Brain 的 Brain Type 更改为 **Internal**。请参阅 [Brain](/docs/Learning-Environment-Design-Brains.md) 以了解有关使用不同类型的 Brain 的详细信息。如果四种内置的类型不能满足您的需求,您可以扩展 CoreBrain 类以创建其它的 Brain 类型。
Brain 类有若干可以使用 Inspector 窗口进行设置的重要属性。对于使用 brain 的 agent,这些属性必须恰当。例如,`Vector Observation Space Size` 属性必须与 agent 创建的特征向量的长度完全匹配。请参阅 [Agent](Learning-Environment-Design-Agents.md) 以获取有关创建 agent 和正确设置 Brain 实例的信息。
Brain 类有若干可以使用 Inspector 窗口进行设置的重要属性。对于使用 brain 的 agent,这些属性必须恰当。例如,`Vector Observation Space Size` 属性必须与 agent 创建的特征向量的长度完全匹配。请参阅 [Agent](/docs/Learning-Environment-Design-Agents.md) 以获取有关创建 agent 和正确设置 Brain 实例的信息。
请参阅 [Brain](Learning-Environment-Design-Brains.md) 以查看 Brain 属性的完整列表。
请参阅 [Brain](/docs/Learning-Environment-Design-Brains.md) 以查看 Brain 属性的完整列表。
### Agent

您还必须确定 Agent 如何完成任务,以及当它超时后如何处理。agent 完成其任务(或彻底失败)后,您可以在 `AgentAction()` 函数中手动将 agent 设置为完成。您还可以将 agent 的 `Max Steps` 属性设置为正值,这样 agent 在执行了此数量的步骤后会认为自己已完成。Academy 达到自己的 `Max Steps` 计数后,会开始下一场景。如果将 agent 的 `ResetOnDone` 属性设置为 true,则 agent 可以在一个场景中多次尝试自己的任务。(在 `Agent.AgentReset()` 函数中可以设置 agent 的初始化逻辑,为下一次的任务做好准备。)
请参阅 [Agent](Learning-Environment-Design-Agents.md) 以详细了解如何编写一个你自己的 agent。
请参阅 [Agent](/docs/Learning-Environment-Design-Agents.md) 以详细了解如何编写一个你自己的 agent。
##环境

2
docs/localized/zh-CN/docs/Learning-Environment-Examples.md


页面。
如果您想提交自己的环境,请参阅我们的
[贡献指南](../CONTRIBUTING.md)页面。
[贡献指南](/CONTRIBUTING.md)页面。
## Basic

28
docs/localized/zh-CN/docs/ML-Agents-Overview.md


您现在可能在脑海中会有非常不同的问题。
为了让您更轻松地过渡到 ML-Agents,
我们提供了多个后台页面,其中包括有关
[Unity 引擎](Background-Unity.md)、
[机器学习](Background-Machine-Learning.md)和
[TensorFlow](Background-TensorFlow.md) 的概述和有用资源。如果您不熟悉 Unity 场景,不了解基本的机器学习概念,或者以前没有听说过 TensorFlow,**强烈**建议您浏览相关的背景知识页面。
[Unity 引擎](/docs/Background-Unity.md)、
[机器学习](/docs/Background-Machine-Learning.md)和
[TensorFlow](/docs/Background-TensorFlow.md) 的概述和有用资源。如果您不熟悉 Unity 场景,不了解基本的机器学习概念,或者以前没有听说过 TensorFlow,**强烈**建议您浏览相关的背景知识页面。
此页面的其余部分深入介绍了 ML-Agents、包括其重要组件、
支持的不同的训练模式以及这些训练模式对应的应用场景。读完后

Brain 收集的观测结果和奖励通过 External Communicator
转发给 Python API。Python API 随后返回 Agent 需要采取的相应动作。
* **Internal** - 使用嵌入式
[TensorFlow](Background-TensorFlow.md) 模型进行决策。
[TensorFlow](/docs/Background-TensorFlow.md) 模型进行决策。
嵌入式 TensorFlow 模型包含了学到的 policy,Brain 直接使用
此模型来确定每个 Agent 的动作。
* **Player** - 使用键盘或控制器的实际输入进行

的 Brain 类型都会设置为 External,并且场景中所有 Agent 的行为
都将在 Python 中接受控制。
我们目前没有教程介绍这种模式,但您可以在[这里](Python-API.md)
我们目前没有教程介绍这种模式,但您可以在[这里](/docs/Python-API.md)
了解有关 Python API 的更多信息。
### Curriculum Learning(课程学习)

可以根据训练进度动态调整与难度或复杂性相关的
环境要素(比如游戏对象)。
[使用 Curriculum Learning(课程学习)进行训练](Training-Curriculum-Learning.md)
[使用 Curriculum Learning(课程学习)进行训练](/docs/Training-Curriculum-Learning.md)
教程使用 **Wall Area** 示例环境介绍了此训练模式。
### Imitation Learning(模仿学习)

算法随后将会使用这些来自人类玩家的观测结果以及他们对应的动作来
学习 policy。
[使用 Imitation Learning(模仿学习)进行训练](Training-Imitation-Learning.md)教程
[使用 Imitation Learning(模仿学习)进行训练](/docs/Training-Imitation-Learning.md)教程
使用 **Banana Collector** 示例环境介绍了此训练模式。
## 灵活的训练方案

或 agent 可以采取持续时间不同的动作
的游戏。在每一步决策与按需决策之间切换
只需点击一下按钮即可实现。您可以在
[此处](Learning-Environment-Design-Agents.md#on-demand-decision-making)了解更多关于按需决策功能的
[此处](/docs/Learning-Environment-Design-Agents.md#on-demand-decision-making)了解更多关于按需决策功能的
信息。
* **记忆增强 Agent** - 在某些情况下,

([LSTM](https://en.wikipedia.org/wiki/Long_short-term_memory))
的实现,使 agent 能够存储要在未来步骤中
使用的记忆。您可以在
[此处](Feature-Memory.md)了解有关在训练中启用 LSTM 的更多信息。
[此处](/docs/Feature-Memory.md)了解有关在训练中启用 LSTM 的更多信息。
* **监控 Agent 的决策过程** - 由于 ML-Agents 中的通信
是双向通道通信,因此我们在 Unity 中提供了一个 agent Monitor 类,

这些输出,研究人员和开发人员可以更轻松地
调试 agent 的行为。您可以在
[此处](Feature-Monitor.md)了解更多关于使用 Monitor 类的信息。
[此处](/docs/Feature-Monitor.md)了解更多关于使用 Monitor 类的信息。
* **复杂的视觉观测** - 在其他平台中,agent 的观测可能
仅限于单个向量或图像,与之不同的是,ML-Agents 允许

不同视角的自动驾驶车辆,或可能需要整合空中视觉和
第一人称视觉的导航 agent。您可以在
[此处](Learning-Environment-Design-Agents.md#multiple-visual-observations)了解更多关于向 agent 添加视觉观测的
[此处](/docs/Learning-Environment-Design-Agents.md#multiple-visual-observations)了解更多关于向 agent 添加视觉观测的
信息。
* **Broadcasting** - 如前所述,默认情况下,External Brain 会将

来通过示范的方式学习 agent 的 policy。
不过,这对 Heuristic 和 Internal Brain 也有帮助,
特别是在调试 agent 行为时。您可以在
[此处](Learning-Environment-Design-Brains.md#using-the-broadcast-feature)了解更多关于使用 broadcasting 功能的
[此处](/docs/Learning-Environment-Design-Brains.md#using-the-broadcast-feature)了解更多关于使用 broadcasting 功能的
[指南](Using-Docker.md)。由于渲染视觉观测的限制,
[指南](/docs/Using-Docker.md)。由于渲染视觉观测的限制,
[指南](Training-on-Amazon-Web-Service.md)
[指南](/docs/Training-on-Amazon-Web-Service.md)
让您了解如何设置 EC2 实例以及公共的预配置 Amazon
Machine Image (AMI)。

46
docs/localized/zh-CN/docs/Readme.md


## 入门
* [ML-Agents 概述](ML-Agents-Overview.md)
* [背景:Unity](Background-Unity.md)
* [背景:机器学习](Background-Machine-Learning.md)
* [背景:TensorFlow](Background-TensorFlow.md)
* [背景:Unity](/docs/Background-Unity.md)
* [背景:机器学习](/docs/Background-Machine-Learning.md)
* [背景:TensorFlow](/docs/Background-TensorFlow.md)
* [背景:Jupyter Notebooks](Background-Jupyter.md)
* [Docker 设置(测试功能)](Using-Docker.md)
* [背景:Jupyter Notebooks](/docs/Background-Jupyter.md)
* [Docker 设置(测试功能)](/docs/Using-Docker.md)
* [教你快速入门 3D Balance Ball 训练环境示例](Getting-Started-with-Balance-Ball.md)
* [官方训练环境示例](Learning-Environment-Examples.md)

* [Agent](Learning-Environment-Design-Agents.md)
* [Academy](Learning-Environment-Design-Academy.md)
* [Brain](Learning-Environment-Design-Brains.md):[Player](Learning-Environment-Design-Player-Brains.md)、[Heuristic](Learning-Environment-Design-Heuristic-Brains.md)、[Internal 和 External](Learning-Environment-Design-External-Internal-Brains.md)
* [训练环境设计要点](Learning-Environment-Best-Practices.md)
* [如何使用 Monitor 功能](Feature-Monitor.md)
* [如何使用 TensorFlowSharp 插件(测试功能)](Using-TensorFlow-Sharp-in-Unity.md)
* [Agent](/docs/Learning-Environment-Design-Agents.md)
* [Academy](/docs/Learning-Environment-Design-Academy.md)
* [Brain](/docs/Learning-Environment-Design-Brains.md):[Player](/docs/Learning-Environment-Design-Player-Brains.md)、[Heuristic](/docs/Learning-Environment-Design-Heuristic-Brains.md)、[Internal 和 External](/docs/Learning-Environment-Design-External-Internal-Brains.md)
* [训练环境设计要点](/docs/Learning-Environment-Best-Practices.md)
* [如何使用 Monitor 功能](/docs/Feature-Monitor.md)
* [如何使用 TensorFlowSharp 插件(测试功能)](/docs/Using-TensorFlow-Sharp-in-Unity.md)
* [如何用 ML-Agents 进行训练](Training-ML-Agents.md)
* [Proximal Policy Optimization 训练要点](Training-PPO.md)
* [Curriculum Learning(课程学习)训练要点](Training-Curriculum-Learning.md)
* [Imitation Learning(模仿学习)训练要点](Training-Imitation-Learning.md)
* [LSTM 训练要点](Feature-Memory.md)
* [如何使用 Amazon Web Services 进行云端训练](Training-on-Amazon-Web-Service.md)
* [如何使用 TensorBoard 观察训练过程](Using-Tensorboard.md)
* [如何用 ML-Agents 进行训练](/docs/Training-ML-Agents.md)
* [Proximal Policy Optimization 训练要点](/docs/Training-PPO.md)
* [Curriculum Learning(课程学习)训练要点](/docs/Training-Curriculum-Learning.md)
* [Imitation Learning(模仿学习)训练要点](/docs/Training-Imitation-Learning.md)
* [LSTM 训练要点](/docs/Feature-Memory.md)
* [如何使用 Amazon Web Services 进行云端训练](/docs/Training-on-Amazon-Web-Service.md)
* [如何使用 TensorBoard 观察训练过程](/docs/Using-Tensorboard.md)
* [如何从老版本升级到 ML-Agents v0.3](Migrating-v0.3.md)
* [ML-Agents 术语表](Glossary.md)
* [ML-Agents 尚未实现功能以及常见问题](Limitations-and-Common-Issues.md)
* [如何从老版本升级到 ML-Agents v0.3](/docs/Migrating-v0.3.md)
* [ML-Agents 术语表](/docs/Glossary.md)
* [ML-Agents 尚未实现功能以及常见问题](/docs/Limitations-and-Common-Issues.md)
* [API 参考](API-Reference.md)
* [如何使用 Python API](Python-API.md)
* [API 参考](/docs/API-Reference.md)
* [如何使用 Python API](/docs/Python-API.md)
正在加载...
取消
保存