Ubuntu 24.04 LTS 保姆级教程:安装 NVIDIA 显卡驱动、CUDA 12.5 及 Docker 容器工具包

Ubuntu 24.04 LTS 保姆级教程:安装 NVIDIA 显卡驱动、CUDA 12.5 及 Docker 容器工具包

摘要: 本文为一篇详尽的指南,旨在帮助开发者和研究人员在最新的 Ubuntu 24.04 LTS (Noble Numbat) 系统上,从零开始成功安装 NVIDIA 显卡驱动、CUDA Toolkit 12.5 以及配置 NVIDIA Container Toolkit,从而使 Docker 容器能够利用 GPU 的强大算力。本文适用于深度学习、机器学习、高性能计算等领域的用户。

目录

  1. 前言
  2. 第一步:环境准备与清理
  3. 第二步:添加 NVIDIA CUDA 官方软件源
  4. 第三步:安装 NVIDIA 驱动和 CUDA Toolkit
  5. 第四步:配置系统环境变量
  6. 第五步:验证驱动和 CUDA 安装
  7. 第六步:安装和配置 NVIDIA Container Toolkit
  8. 第七步:最终测试——在 Docker 容器中访问 GPU
  9. 总结与常见问题

前言

随着 Ubuntu 24.04 LTS 的发布,许多需要进行 GPU 加速计算的开发者都希望能够在这个最新的长期支持版本上搭建自己的开发环境。NVIDIA 显卡驱动是基础,CUDA 是连接硬件和上层计算框架(如 PyTorch, TensorFlow)的桥梁,而 NVIDIA Container Toolkit 则是实现容器化 GPU 应用的关键。

本文将手把手带你走完整个安装流程,确保每一步都清晰明了,避免踩坑。

第一步:环境准备与清理

在开始安装之前,强烈建议先将系统中可能存在的旧版本 NVIDIA 驱动彻底卸载,以避免潜在的冲突。

打开终端(快捷键 Ctrl+Alt+T),执行以下命令:

# 更新软件包列表 sudo apt update # 卸载所有与 nvidia 相关的软件包 sudo apt-get --purge remove '*nvidia*' sudo apt-get autoremove sudo apt-get autoclean 

执行完毕后,最好重启一下系统,确保所有旧的驱动模块都已被卸载。

sudo reboot 

重启后,你可以通过 lspci 命令确认你的 NVIDIA 显卡型号,确保硬件被系统正确识别。

# 查看 PCI 设备列表,并筛选出 NVIDIA 相关的设备 lspci | grep -i nvidia 

你会看到类似下面的输出,显示你的显卡型号(例如 NVIDIA Corporation GA102 [GeForce RTX 3090])。

第二步:添加 NVIDIA CUDA 官方软件源

为了确保我们安装的是最新且最匹配的驱动和 CUDA 版本,最佳实践是使用 NVIDIA 官方提供的软件源。

更新软件包列表完成上述步骤后,再次更新你的 apt 软件包列表,以加载新的 CUDA 软件源。

sudo apt-get update 

添加 CUDA 软件源

# 下载 CUDA for Ubuntu 24.04 的仓库配置文件 wget https://developer.download.nvidia.com/compute/cuda/12.5.1/local_installers/cuda-repo-ubuntu2404-12-5-local_12.5.1-555.42.06-1_amd64.deb # 使用 dpkg 安装该仓库配置文件 sudo dpkg -i cuda-repo-ubuntu2404-12-5-local_12.5.1-555.42.06-1_amd64.deb # 从本地仓库中提取 GPG 密钥并添加到系统的信任列表 sudo cp /var/cuda-repo-ubuntu2404-12-5-local/cuda-*-keyring.gpg /usr/share/keyrings/ 

下载并添加官方源的 GPG 密钥

# 下载官方的 .pin 文件,用于指定仓库优先级 wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-ubuntu2404.pin # 将 .pin 文件移动到 apt 的偏好设置目录 sudo mv cuda-ubuntu2404.pin /etc/apt/preferences.d/cuda-repository-pin-600 

第三步:安装 NVIDIA 驱动和 CUDA Toolkit

现在,我们可以直接通过 apt 来安装 CUDA Toolkit。一个好消息是,安装 cuda-toolkit 会自动处理其依赖关系,将最匹配的 NVIDIA 驱动一并安装上。

# 安装 CUDA Toolkit 12.5 # 这个过程会下载并安装驱动、CUDA 核心组件等,可能需要一些时间 sudo apt-get -y install cuda-toolkit-12-5 

安装完成后,再次重启系统以加载新的内核模块和驱动。

sudo reboot 

第四步:配置系统环境变量

为了让系统能够在任何路径下都能找到 CUDA 的可执行文件(如 nvcc)和库文件,我们需要配置 PATHLD_LIBRARY_PATH 环境变量。

    • PATH 变量用于指定可执行文件的搜索路径。
    • LD_LIBRARY_PATH 变量用于指定动态链接库的搜索路径。
    • ${VAR:+:${VAR}} 是一种安全的写法,表示如果 VAR 变量已存在且非空,则在其前面添加一个冒号,否则不加,避免路径开头出现多余的冒号。

使配置立即生效保存并关闭文件后,执行以下命令让配置立即生效。

source ~/.bashrc 

在文件末尾添加以下内容

# NVIDIA CUDA Toolkit Environment Variables export PATH=/usr/local/cuda-12.5/bin${PATH:+:${PATH}} export LD_LIBRARY_PATH=/usr/local/cuda-12.5/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}} 

说明:

编辑 ~/.bashrc 文件使用你喜欢的文本编辑器(如 nanovim)打开 ~/.bashrc 文件。

nano ~/.bashrc 

第五步:验证驱动和 CUDA 安装

现在是激动人心的验证环节!

验证 CUDA Toolkit执行 nvcc -Vnvcc --version 命令,检查 CUDA 编译器的版本。

nvcc -V 

如果安装成功,你会看到类似下面的输出,确认 CUDA Toolkit 12.5 已安装。

nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2024 NVIDIA Corporation Built on Tue_Mar_19_18:45:25_PDT_2024 Cuda compilation tools, release 12.5, V12.5.40 Build cuda_12.5.r12.5/compiler.34174849_0 

验证 NVIDIA 驱动执行 nvidia-smi 命令。

nvidia-smi 

如果一切正常,你将看到一个表格,详细列出了你的 GPU 型号、驱动版本、CUDA 版本以及 GPU 的实时状态(温度、功耗、显存使用情况等)。

第六步:安装和配置 NVIDIA Container Toolkit

为了让 Docker 容器能够使用 GPU,我们需要安装 NVIDIA Container Toolkit。

重启 Docker 服务应用新的配置,需要重启 Docker 守护进程。

sudo systemctl restart docker 

配置 Docker 守护进程安装完成后,我们需要配置 Docker,让它知道如何使用 NVIDIA 运行时。

sudo nvidia-ctk runtime configure --runtime=docker 

更新软件包列表并安装

sudo apt-get update sudo apt-get install -y nvidia-container-toolkit 

设置 GPG 密钥和软件源

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \ && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \ sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \ sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list 

第七步:最终测试——在 Docker 容器中访问 GPU

最后一步,我们来验证一下 Docker 容器是否真的能调用到 GPU 资源。

我们将运行一个官方的 CUDA 基础镜像,并在容器内部执行 nvidia-smi

# --gpus all 参数是关键,它告诉 Docker 为该容器分配所有可用的 GPU sudo docker run --rm --gpus all nvidia/cuda:12.5.1-base-ubuntu22.04 nvidia-smi 

如果命令成功执行,并且在容器的输出中看到了和主机上一样的 nvidia-smi 表格,那么恭喜你!整个环境已经完美搭建成功!

总结与常见问题

通过以上七个步骤,我们成功地在 Ubuntu 24.04 LTS 系统上完成了 NVIDIA 驱动、CUDA Toolkit 12.5 以及 NVIDIA Container Toolkit 的安装和配置。现在,你的系统已经准备就绪,可以投入到激动人心的 AI 开发和深度学习研究中去了。

常见问题 (FAQ):

  • Q: 安装过程中提示 Secure Boot 相关问题怎么办?
    • A: NVIDIA 驱动是第三方内核模块,需要在 BIOS/UEFI 中禁用安全启动 (Secure Boot) 才能正常加载。请重启电脑进入 BIOS 设置,找到 Secure Boot 选项并将其设置为 Disabled
  • Q: nvidia-smi 命令找不到?
    • A: 最大的可能是环境变量没有配置正确或没有生效。请检查 ~/.bashrc 文件中的路径是否正确(特别是 CUDA 版本号),然后执行 source ~/.bashrc。如果还不行,请检查 /usr/local/ 目录下 CUDA 的实际安装路径。
  • Q: Docker 测试时报错 docker: Error response from daemon: ...
    • A: 确保 nvidia-container-toolkit 已正确安装,并且 sudo systemctl restart docker 命令已成功执行。检查 Docker 服务的状态 (sudo systemctl status docker) 看是否有错误信息。

希望这篇博客能对你有所帮助!如果你在安装过程中遇到任何问题,欢迎在评论区留言交流。

Read more

Flutter for OpenHarmony:socket_io_client 实时通信的事实标准(Node.js 后端的最佳拍档) 深度解析与鸿蒙适配指南

Flutter for OpenHarmony:socket_io_client 实时通信的事实标准(Node.js 后端的最佳拍档) 深度解析与鸿蒙适配指南

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net 前言 如果你的后端使用 Node.js,那么你大概率在使用 Socket.IO。 Socket.IO 不仅仅是 WebSocket,它是一套极其强大的实时通信框架,内置了长轮询回退、自动重连、房间(Room)、命名空间(Namespace)以及二进制流支持。 socket_io_client 是官方移植到 Dart 的客户端库,完全兼容 JS 版 Socket.IO 的协议。 对于 OpenHarmony 开发者,如果你的业务需要与现有的 Node.js 实时服务(如客服系统、实时游戏服务器)对接,使用这个库可以帮你省去大量解析底层协议的麻烦。 一、核心原理 Socket.

By Ne0inhk
SkyWalking - 支持的中间件清单:Spring Cloud、Dubbo、RocketMQ、ShardingSphere 等

SkyWalking - 支持的中间件清单:Spring Cloud、Dubbo、RocketMQ、ShardingSphere 等

👋 大家好,欢迎来到我的技术博客! 📚 在这里,我会分享学习笔记、实战经验与技术思考,力求用简单的方式讲清楚复杂的问题。 🎯 本文将围绕SkyWalking这个话题展开,希望能为你带来一些启发或实用的参考。 🌱 无论你是刚入门的新手,还是正在进阶的开发者,希望你都能有所收获! 文章目录 * 🌐 SkyWalking —— 全链路监控利器,支持 Spring Cloud、Dubbo、RocketMQ、ShardingSphere 等主流中间件 * 🚀 为什么选择 SkyWalking? * 🧩 SkyWalking 架构概览 * 📦 环境准备 * 1. 下载 SkyWalking * 2. 启动 OAP 和 UI * ☁️ Spring Cloud 集成示例 * Maven 依赖(非必须,Agent 自动注入) * 启动参数配置 * 示例代码:Feign 调用链追踪 * 🔗 Dubbo 集成示例 * 启动参数(同

By Ne0inhk
Spring Cloud Alibaba 2026 最新实战手册

Spring Cloud Alibaba 2026 最新实战手册

✨道路是曲折的,前途是光明的! 📝 专注C/C++、Linux编程与人工智能领域,分享学习笔记! 🌟 感谢各位小伙伴的长期陪伴与支持,欢迎文末添加好友一起交流! 📚 目录 * 一、引言:微服务架构的新篇章 * 二、Spring Cloud Alibaba 核心架构 * 三、环境搭建与项目初始化 * 四、核心组件实战 * 五、微服务治理最佳实践 * 六、性能优化与监控 * 七、总结与展望 一、引言:微服务架构的新篇章 1.1 为什么选择 Spring Cloud Alibaba? 在云原生时代,微服务架构已成为企业级应用的主流选择。Spring Cloud Alibaba 作为国内领先的微服务解决方案,凭借以下优势脱颖而出: Spring Cloud Alibaba 优势 生态完善 中文文档丰富 阿里生产验证

By Ne0inhk
从下载到运行:MySQL 详细安装配置完整教程

从下载到运行:MySQL 详细安装配置完整教程

从下载到运行:MySQL 超详细安装配置完整教程 * 从下载到运行:MySQL 详细安装配置完整教程 * 一、MySQL下载步骤 * 二、MySQL安装流程 * 三、MySQL环境配置与验证 * 1. 配置环境变量 * 2. 验证MySQL是否安装成功 * 四、Navicat链接MySQL * 1. 安装Navicat 从下载到运行:MySQL 详细安装配置完整教程 一、MySQL下载步骤 首先访问MySQL官方下载地址,进入MySQL的官方下载页面。 下载完成后,在本地找到下载好的MySQL安装文件,双击文件启动安装程序。 二、MySQL安装流程 双击安装文件后,会进入MySQL安装类型选择界面,界面中提供5种安装模式,各自功能如下: Developer Default(开发者默认):包含MySQL开发所需的全套组件(如数据库服务、客户端工具、SDK等),适合开发人员使用。Server only(仅服务器):仅安装MySQL数据库服务,适合仅需搭建数据库服务器的场景。Client

By Ne0inhk