Helm部署nvidia-pulgin

 2025/06/30 

之前看了下使用gpu-operator部署的，那个太复杂了，带了一堆组件。组件越多可能遇到的问题越多，有空再研究吧

这里直接使用官方文档进行部署

前期准备

需要安装完nivida驱动(略)
nvidia-smi

需要安装nvidia-container-toolkit
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
  && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
    sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

sed -i -e '/experimental/ s/^#//g' /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
nvidia-ctk --version

配置runtime--两个都需要
配置runtime为docker
sudo nvidia-ctk runtime configure --runtime=docker
sudo vim /etc/docker/daemon.json
    "runtimes": {
        "nvidia": {
            "args": [],
            "path": "nvidia-container-runtime"
        }
    }
sudo systemctl daemon-reload
sudo systemctl restart docker 

配置runtime为containerd
sudo nvidia-ctk runtime configure --runtime=containerd
sudo vim /etc/containerd/config.toml
...
    [plugins."io.containerd.grpc.v1.cri".containerd]
      default_runtime_name = "nvidia"
...

      [plugins."io.containerd.grpc.v1.cri".containerd.runtimes]

        [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia]
          base_runtime_spec = ""
          cni_conf_dir = ""
          cni_max_conf_num = 0
          container_annotations = []
          pod_annotations = []
          privileged_without_host_devices = false
          runtime_engine = ""
          runtime_path = ""
          runtime_root = ""
          runtime_type = "io.containerd.runc.v2"

          [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia.options]
            BinaryName = "/usr/bin/nvidia-container-runtime"
            CriuImagePath = ""
            CriuPath = ""
            CriuWorkPath = ""
            IoGid = 0
            IoUid = 0
            NoNewKeyring = false
            NoPivotRoot = false
            Root = ""
            ShimCgroup = ""
            SystemdCgroup = true
...
sudo systemctl restart containerd

插件部署

参考文档：

https://github.com/NVIDIA/k8s-device-plugin?tab=readme-ov-file#deployment-via-helm

# 需求镜像
registry.k8s.io/nfd/node-feature-discovery:v0.15.3(需要搭梯下载)
nvcr.io/nvidia/k8s-device-plugin:v0.17.1

# 安装仓库
kubectl create ns nvidia-device-plugin
helm repo add nvdp https://nvidia.github.io/k8s-device-plugin
helm repo update

helm pull nvdp/nvidia-device-plugin --version=0.17.1 --untar
cd nvidia-device-plugin/

# 修改参数
vim values.yaml
打开gfd参数,nfd默认打开
gfd:
  enabled: true
...

vim charts/node-feature-discovery/values.yaml 
修改镜像配置，默认如下，默认tag v0.15.3
image:
  repository: registry.k8s.io/nfd/node-feature-discovery
  # This should be set to 'IfNotPresent' for released version
  pullPolicy: IfNotPresent
  
  
# 部署
helm install nvidia-device-plugin ./ -f values.yaml -n nvidia-device-plugin

helm list -n nvidia-device-plugin
NAME                	NAMESPACE           	REVISION	UPDATED                                	STATUS  	CHART                      	APP VERSION
nvidia-device-plugin	nvidia-device-plugin	11      	2025-06-30 16:11:59.267278186 +0800 CST	deployed	nvidia-device-plugin-0.17.1	0.17.1     

kubectl get pods -n nvidia-device-plugin 
NAME                                                              READY   STATUS    RESTARTS   AGE
nvidia-device-plugin-gpu-feature-discovery-6tzsp                  1/1     Running   0          52m
nvidia-device-plugin-node-feature-discovery-gc-6d6b9d45dd-gbpm8   1/1     Running   0          91m
nvidia-device-plugin-node-feature-discovery-master-889bff7gd2xz   1/1     Running   0          106m
nvidia-device-plugin-node-feature-discovery-worker-6nzz2          1/1     Running   0          91m
nvidia-device-plugin-xfk66                                        1/1     Running   0          52m

kubectl describe node | grep gpu
                    nvidia.com/gpu.compute.major=8
                    nvidia.com/gpu.compute.minor=9
                    nvidia.com/gpu.count=8
                    nvidia.com/gpu.family=ada-lovelace
                    nvidia.com/gpu.machine=Rack-Server
                    nvidia.com/gpu.memory=24564
                    nvidia.com/gpu.mode=graphics
                    nvidia.com/gpu.product=NVIDIA-GeForce-RTX-4090
                    nvidia.com/gpu.replicas=1
                    nvidia.com/gpu.sharing-strategy=none
                    nvidia.com/vgpu.present=false
  nvidia.com/gpu:     8
  nvidia.com/gpu:     8
  nvidia-device-plugin        nvidia-device-plugin-gpu-feature-discovery-6tzsp                   0 (0%)        0 (0%)      0 (0%)           0 (0%)         81m
  nvidia.com/gpu     0             0

资源测试

cat test-gpu-pod.yaml 
apiVersion: v1
kind: Pod
metadata:
  name: gpu-test-pod
spec:
  restartPolicy: Never
  containers:
  - name: cuda-container
    image: nvcr.io/nvidia/cuda:12.0.1-runtime-ubuntu20.04
    command: ["nvidia-smi"]
    resources:
      limits:
        nvidia.com/gpu: 1

kubectl apply -f  test-gpu-pod.yaml 

kubectl get pods 
NAME                               READY   STATUS      RESTARTS         AGE
gpu-test-pod                       0/1     Completed   0                2m50s

原文作者：王盛

原文链接：https://akemi.zj.cn/2025/06/30/Helm-nvidia-pulgin/

发表日期：June 30th 2025, 7:29:35 pm

更新日期：June 30th 2025, 7:29:57 pm

Next Post

Nivdia驱动安装
Previous Post

Cephadm部署Ceph集群与扩容

CATALOG

Total : 234

2025

2024

12/30 前端入门--HTML基础标签
12/17 Helm父子chart的关系与实战
12/12 常用的对象存储连接方式
12/11 Shell脚本-添加Openvpn账号密码
12/10 Python-tk库—图形化管理httpd服务
12/09 Python-tk库—图形化管理tomcat服务
12/09 argoCD介绍，部署与对接代码仓库
12/08 CRD自定义API资源介绍与使用官方案例
12/08 无敌的镜像加速器地址
12/08 使用Mongodb-Kubernetes-Operator部署mongodb集群
12/05 OpenVPN原理与证书类型
12/05 Helm部署minIO-单点与分布式
12/04 Helm部署mysql8
12/04 Helm部署redis5与使用local-path-provisioner
12/01 镜像管理工具skopeo部署与实战
12/01 Python-tk库—图形化管理nginx服务
12/01 k3s两节点测试环境快速部署
12/01 ubuntu20.04桌面版快速部署单点k8s
11/19 Python基于多种方式检测linux服务运行状态(进程筛选、systemctl、API)
11/17 Python使用mysql-connector-python库实现CRUD
11/16 Python-kubernetes模块案例—根据不同ns更新pod副本数
11/16 Python-kubernetes模块—k8s集群资源管理方法
11/13 Python socket模块案例—简单网络编程
11/13 Python boto3模块—访问S3风格API
11/11 Python Flask框架—快速开发API
11/10 Python request模块常用方法
11/09 Python json模块案例—提取与交换json数据
11/09 Python yaml模块案例——提取与修改k8s配置文件
11/08 Python fabric模块案例—更方便使用ssh
11/07 Python paramiko模块案例—创建SSH、SFTP连接
11/07 Python logging模块案例—切割日志与告警发送
11/05 Python psutil模块案例—获取系统硬件状态
11/03 Python subprocess模块案例—执行系统命令与创建子进程
11/01 面对锁表，他的选择是……查询锁源
11/01 面对锁表，他的选择是……监控锁状态与查看死锁
11/01 面对主从延时，他的选择是……主从性能优化
10/31 Python案例——备份文件，清理过期日志，批量重命名文件
10/29 博客迁移小记——从github page迁移到cloudflare page
10/16 Kafka集群搭建
10/15 jenkins构建pipeline项目到k8s
10/13 K8s二进制安装
10/10 Jenkins构建pipeline项目到docker
10/08 Jenkins yum部署与k8s容器化部署
10/08 Jenkins主从架构
10/08 Jenkins构建maven项目
10/08 Jenkins构建自由风格项目——拉取gitlab代码、使用脚本上传代码
10/05 使用Dockerfile打包与发布一个tomcat博客
10/01 Git与Gitlab使用知识整理
09/26 Ansible项目
09/24 Redis集群主从关系优化
09/24 Redis ASK机制、cluster-node-timeout参数
09/24 Redis-Cluster集群模式
09/24 Redis-Cluster扩容与缩容
09/22 Redis主从复制
09/22 Redis哨兵模式
09/19 Redis事务
09/19 Redis部署与参数
09/19 Redis持久化
09/19 Redis数据类型与常用操作
09/18 zabbix自定义报警——mysql主从复制状态检查
09/17 Zabbix-Proxy
09/17 Zabbix自动注册
09/16 Zabbix自动发现
09/16 zabbix监控——JMX客户端
09/14 Zabbix企业微信报警
09/13 Zabbix邮件报警
09/12 Zabbix自定义监控
09/12 Zabbix自定义模板
09/12 Zabbix5.0安装与部署
09/10 Mycat与keepalived高可用
09/10 Mycat部署与读写分离
09/08 MySQL高可用之MHA
09/05 MySQL高可用之主从复制(已更新)
09/04 MySQL高可用之双主+keepalived
09/03 MySQL高可用方案介绍
09/03 MySQL元数据与information_schema
09/02 SQL语句详解
08/31 MySQL多实例
08/27 Shell实战
08/23 Tomcat综合案例
08/21 Tomcat基础知识
08/18 Nginx综合案例
08/15 lnmp搭建笔记
08/14 Nginx案例
08/13 logrotate服务
08/13 使用mailx发送到企业邮箱
08/11 Rsync数据备份工具
08/09 Linux系统Firewalld使用
07/26 Mysql备份
07/26 Mysql-Federate远程链接数据库
07/24 mysql安全审计之Mcafee Mysql-Audit
07/22 Mysql用户权限与密码管理、角色管理
07/22 Mysql-Linux环境部署
07/18 Mysql-InnoDB存储引擎、InnoDB事务
07/15 Shell零碎知识
06/28 Linux环境初始化
06/28 Iptables使用
06/28 Linux零碎常识
06/28 Linux常见报错记录
06/28 Nginx详解
06/23 虚拟化基础知识
06/18 Docker-compose部署lnmp
06/18 临时容器ephemeralcontainers
06/13 k8s可视化UI界面Kuboard
06/13 k8s部署MongoDB主从集群
06/12 k8s部署Redis高可用集群
06/04 Playbook实战案例
06/04 Rook部署ceph
06/02 EFK日志处理平台-2
06/01 k8s自动扩缩容HPA VPA KPA
06/01 Python代码封装至k8s中运行
06/01 将SpringCloud项目迁移至k8s
05/17 EFK日志处理平台
05/15 Linux单机监控
05/14 Docker管理
05/06 linux screen与tmux
05/06 DevOps工具链
05/06 Helm
05/06 Istio微服务网格
05/06 Prometheus普罗米修斯
05/06 k8s可视化UI界面Rancher
05/01 Gitlab
05/01 ceph对接k8s
05/01 Git代码管理工具
05/01 go代码封装到k8s中运行
05/01 VMware I2I迁移至PVE 小记
04/26 ESXi物理机安装踩坑汇总
04/26 Ansible笔记集合
04/23 根分区扩容小记
03/16 CEPH分布式存储
02/27 本地部署harbor私有镜像仓库
02/27 k8s基础知识
02/06 Python学习笔记
02/06 虚拟化系统PVE物理机快速安装指南
02/02 使用1panel搭建Hexo博客

2023