使用用户命名空间隔离容器

Linux 命名空间为运行中的进程提供隔离，限制它们对系统资源的访问，而运行中的进程不会感知到这些限制。有关 Linux 命名空间的更多信息，请参阅Linux 命名空间。

防止容器内部特权提升攻击的最佳方法是将容器的应用程序配置为以非特权用户身份运行。对于其进程必须在容器内以 root 用户身份运行的容器，您可以将此用户重新映射到 Docker 主机上的一个权限较低的用户。映射的用户被分配了一个 UID 范围，该范围在命名空间内像正常的 UID 0 到 65536 一样工作，但在主机本身上没有任何特权。

关于重新映射下属用户和组 ID

重新映射本身由两个文件处理：/etc/subuid 和 /etc/subgid。每个文件的工作方式相同，但一个关注用户 ID 范围，另一个关注组 ID 范围。考虑 /etc/subuid 中的以下条目

testuser:231072:65536

这意味着 testuser 被分配了一个下属用户 ID 范围，从 231072 开始，并包括接下来按顺序排列的 65536 个整数。UID 231072 在命名空间内（在本例中为容器内）映射为 UID 0 (root)。UID 231073 映射为 UID 1，依此类推。如果一个进程试图在命名空间外部提升权限，该进程在主机上以一个非特权的高编号 UID 运行，甚至不会映射到真实用户。这意味着该进程在主机系统上完全没有特权。

注意
可以通过在 /etc/subuid 或 /etc/subgid 文件中为同一用户或组添加多个非重叠映射来为给定用户或组分配多个下属范围。在这种情况下，Docker 只使用前五个映射，这符合内核在 /proc/self/uid_map 和 /proc/self/gid_map 中只允许五个条目的限制。

当您配置 Docker 使用 userns-remap 功能时，您可以选择指定一个现有用户和/或组，或者指定 default。如果您指定 default，则会创建一个用户和组 dockremap 并用于此目的。

警告
某些发行版不会自动将新组添加到 /etc/subuid 和 /etc/subgid 文件。如果是这种情况，您可能需要手动编辑这些文件并分配非重叠范围。此步骤在前提条件中介绍。

范围不重叠非常重要，这样进程才不会在不同的命名空间中获取访问权限。在大多数 Linux 发行版上，当您添加或移除用户时，系统工具会自动为您管理范围。

这种重新映射对容器是透明的，但在容器需要访问 Docker 主机上资源（例如绑定挂载到系统用户无法写入的文件系统区域）的情况下会引入一些配置复杂性。从安全角度来看，最好避免这些情况。

前提条件

下属 UID 和 GID 范围必须与现有用户关联，即使这种关联是实现细节。该用户拥有 /var/lib/docker/ 下的命名空间存储目录。如果您不想使用现有用户，Docker 可以为您创建一个并使用它。如果您想使用现有的用户名或用户 ID，它必须已经存在。通常，这意味着相关条目需要存在于 /etc/passwd 和 /etc/group 中，但如果您使用不同的认证后端，此要求可能会有所不同。
要验证这一点，请使用 id 命令
$ id testuser uid=1001(testuser) gid=1001(testuser) groups=1001(testuser)
主机上处理命名空间重新映射的方式是使用两个文件：/etc/subuid 和 /etc/subgid。这些文件通常在您添加或移除用户或组时自动管理，但在某些发行版上，您可能需要手动管理这些文件。
每个文件包含三个字段：用户名或用户 ID，后跟起始 UID 或 GID（在命名空间内被视为 UID 或 GID 0）以及该用户可用的最大 UID 或 GID 数量。例如，给定以下条目
```
testuser:231072:65536
```
这意味着由 testuser 启动的用户命名空间进程由主机 UID 231072（在命名空间内部看起来像 UID 0）到 296607 (231072 + 65536 - 1) 所拥有。这些范围不应重叠，以确保命名空间进程无法访问彼此的命名空间。
添加用户后，检查 /etc/subuid 和 /etc/subgid 文件，查看您的用户是否在其中有条目。如果没有，您需要手动添加，并注意避免重叠。
如果您想使用 Docker 自动创建的 dockremap 用户，请在配置并重新启动 Docker 后检查这些文件中是否存在 dockremap 条目。
如果 Docker 主机上有任何非特权用户需要写入的位置，请相应地调整这些位置的权限。如果您想使用 Docker 自动创建的 dockremap 用户，情况也是如此，但在配置并重新启动 Docker 之前，您无法修改权限。
启用 userns-remap 会有效隐藏现有的镜像和容器层，以及 /var/lib/docker/ 中的其他 Docker 对象。这是因为 Docker 需要调整这些资源的所有权，并实际将它们存储在 /var/lib/docker/ 内的一个子目录中。最好在新安装的 Docker 上启用此功能，而不是现有安装。
同样，如果您禁用 userns-remap，则无法访问在启用期间创建的任何资源。
检查用户命名空间已知限制以确保您的用例可行。

在守护进程上启用 userns-remap

您可以使用 --userns-remap 标志启动 dockerd，或者按照此步骤使用 daemon.json 配置文件配置守护进程。推荐使用 daemon.json 方法。如果您使用标志，请使用以下命令作为模型

$ dockerd --userns-remap="testuser:testuser"

编辑 /etc/docker/daemon.json。假设该文件之前为空，以下条目将使用名为 testuser 的用户和组启用 userns-remap。您可以通过 ID 或名称指定用户和组。仅当组名或 ID 与用户名或 ID 不同时，才需要指定组名或 ID。如果您同时提供用户和组的名称或 ID，请使用冒号 (:) 字符分隔。假设 testuser 的 UID 和 GID 为 1001，以下格式均可用于该值
- testuser
- testuser:testuser
- 1001
- 1001:1001
- testuser:1001
- 1001:testuser
{ "userns-remap": "testuser" }
注意
要使用 dockremap 用户并让 Docker 为您创建它，请将值设置为 default 而不是 testuser。
保存文件并重新启动 Docker。
如果您使用的是 dockremap 用户，请使用 id 命令验证 Docker 是否创建了它。
$ id dockremap uid=112(dockremap) gid=116(dockremap) groups=116(dockremap)
验证条目已添加到 /etc/subuid 和 /etc/subgid 文件
$ grep dockremap /etc/subuid dockremap:231072:65536 $ grep dockremap /etc/subgid dockremap:231072:65536
如果这些条目不存在，请以 root 用户身份编辑文件，并分配一个起始 UID 和 GID，该值应为已分配的最高值加上偏移量（在本例中为 65536）。注意不要让范围有任何重叠。
使用 docker image ls 命令验证以前的镜像是否不可用。输出应为空。
从 hello-world 镜像启动容器。
$ docker run hello-world

验证在 /var/lib/docker/ 中是否存在一个命名空间目录，其名称为命名空间用户的 UID 和 GID，所有者为该 UID 和 GID，并且不可被组或其他用户读取。某些子目录仍然由 root 用户拥有并具有不同的权限。

$ sudo ls -ld /var/lib/docker/231072.231072/

drwx------ 11 231072 231072 11 Jun 21 21:19 /var/lib/docker/231072.231072/

$ sudo ls -l /var/lib/docker/231072.231072/

total 14
drwx------ 5 231072 231072 5 Jun 21 21:19 aufs
drwx------ 3 231072 231072 3 Jun 21 21:21 containers
drwx------ 3 root   root   3 Jun 21 21:19 image
drwxr-x--- 3 root   root   3 Jun 21 21:19 network
drwx------ 4 root   root   4 Jun 21 21:19 plugins
drwx------ 2 root   root   2 Jun 21 21:19 swarm
drwx------ 2 231072 231072 2 Jun 21 21:21 tmp
drwx------ 2 root   root   2 Jun 21 21:19 trust
drwx------ 2 231072 231072 3 Jun 21 21:19 volumes

您的目录列表可能有一些差异，特别是如果您使用的容器存储驱动程序与 aufs 不同。

由重新映射用户拥有的目录被使用，而不是直接在 /var/lib/docker/ 下的同名目录，并且未使用的版本（例如此处示例中的 /var/lib/docker/tmp/）可以被移除。当 userns-remap 启用时，Docker 不会使用它们。

为容器禁用命名空间重新映射

如果您在守护进程上启用用户命名空间，则默认情况下所有容器都会启用用户命名空间启动。在某些情况下，例如特权容器，您可能需要为特定容器禁用用户命名空间。请参阅用户命名空间已知限制了解其中一些限制。

要为特定容器禁用用户命名空间，请在 docker container create、docker container run 或 docker container exec 命令中添加 --userns=host 标志。

使用此标志会产生一个副作用：该容器不会启用用户重新映射，但是由于只读（镜像）层在容器之间共享，容器文件系统的所有权仍然会被重新映射。

这意味着整个容器文件系统将属于在 --userns-remap 守护进程配置中指定的用户（在上述示例中为 231072）。这可能导致容器内的程序出现意外行为。例如 sudo（它会检查其二进制文件是否属于用户 0）或带有 setuid 标志的二进制文件。

用户命名空间已知限制

以下标准 Docker 功能与启用用户命名空间运行的 Docker 守护进程不兼容

与主机共享 PID 或 NET 命名空间 (--pid=host 或 --network=host)。
不知道或无法使用守护进程用户映射的外部（数据卷或存储）驱动程序。
在 docker run 命令中使用 --privileged 模式标志，同时未指定 --userns=host。

用户命名空间是一项高级功能，需要与其他功能协调使用。例如，如果从主机挂载数据卷，如果您需要对数据卷内容进行读写访问，则必须预先安排文件所有权。

虽然用户命名空间容器进程内的 root 用户在容器内拥有许多超级用户应有的特权，但 Linux 内核会基于内部知识（即这是一个用户命名空间进程）施加限制。一个值得注意的限制是无法使用 mknod 命令。当由 root 用户运行时，在容器内创建设备的操作会被拒绝。