在 Kubernetes 中调度 GPU 资源可以通过使用 GPU 插件和相应的调度器配置来实现。以下是一般的步骤:

1. 安装 NVIDIA GPU 插件: Kubernetes 本身不直接支持 GPU 调度,因此你需要安装相应的 GPU 插件。一个常用的插件是 NVIDIA 的 GPU 插件(nvidia-container-runtime),它允许容器在 GPU 上运行。

   你可以按照 NVIDIA 官方文档的说明来安装 GPU 插件:[NVIDIA Container Runtime](https://nvidia.github.io/nvidia-container-runtime/)

2. 配置调度器: Kubernetes 的调度器需要配置为理解 GPU 资源,并确保调度 Pod 到拥有足够 GPU 资源的节点上。这通常需要修改调度器的配置文件。
   apiVersion: apps/v1
   kind: DaemonSet
   metadata:
     name: nvidia-gpu-device-plugin-daemonset
     namespace: kube-system
     labels:
       tier: node
       app: nvidia-gpu-device-plugin
   spec:
     selector:
       matchLabels:
         app: nvidia-gpu-device-plugin
     template:
       metadata:
         labels:
           app: nvidia-gpu-device-plugin
       spec:
         containers:
         - name: nvidia-gpu-device-plugin
           image: nvidia/k8s-device-plugin:v0.9.0
           securityContext:
             allowPrivilegeEscalation: false
             capabilities:
               drop:
               - ALL
           volumeMounts:
           - name: device-plugin
             mountPath: /var/lib/kubelet/device-plugins
         volumes:
         - name: device-plugin
           hostPath:
             path: /var/lib/kubelet/device-plugins

   上述 YAML 文件是一个 DaemonSet,它在每个节点上启动一个 Pod,该 Pod 负责检测 GPU 资源并通知 Kubernetes 调度器。

3. 标记 GPU 节点: 为了让调度器知道哪些节点上有 GPU 资源,你需要在节点上添加相应的标记。
   kubectl label nodes <node-name> nvidia.com/gpu=<number-of-gpus>

   其中 <node-name> 是节点的名称,<number-of-gpus> 是该节点上可用的 GPU 数量。

4. 使用 GPU 资源: 当你创建一个需要 GPU 资源的 Pod 时,你需要在 Pod 的 YAML 文件中添加 GPU 请求。
   apiVersion: v1
   kind: Pod
   metadata:
     name: gpu-pod
   spec:
     containers:
     - name: gpu-container
       image: your-gpu-image
       resources:
         limits:
           nvidia.com/gpu: 1

   在上述示例中,nvidia.com/gpu: 1 表示这个容器需要一个 GPU 资源。

请注意,确保你的 GPU 节点和容器镜像都能与使用的 GPU 插件兼容。以上步骤中使用的版本号和配置可能会随时间变化,因此请参考相应的官方文档和社区资源以获取最新的信息。


转载请注明出处:http://www.pingtaimeng.com/article/detail/9968/Kubernetes