最近组装了一台专门用于本地 AI、大模型、语音和视觉任务的工作站。为了后续运行 vLLM、Open WebUI、ComfyUI、Whisper、TTS 等服务,我选择了 Ubuntu Server 24.04.4 LTS 作为基础系统。

主机配置

  • CPU:AMD Ryzen 9 9900X

  • 主板:ASRock X870E Taichi

  • 显卡:NVIDIA GeForce RTX 3090

  • 内存:DDR5 6000MHz 24GB × 2

  • SSD:PCIe 5.0 NVMe SSD 2TB

  • 电源:Seasonic PRIME TX-1600

  • 机箱:Cooler Master COSMOS ALPHA


为什么选择 Ubuntu Server 24.04 LTS

AI 生态目前最主流的环境依然是:

  • Ubuntu 22.04 LTS

  • Ubuntu 24.04 LTS

虽然 Ubuntu 26.04 已经发布,但许多 AI 项目仍然优先验证:

  • Docker

  • CUDA

  • PyTorch

  • vLLM

  • SGLang

  • ComfyUI

  • Ollama

在 22.04 和 24.04 上的兼容性。

对于长期运行的 AI 工作站来说:

稳定 > 新功能

因此最终选择:

Ubuntu Server 24.04.4 LTS

系统更新

安装完成后首先更新系统:

sudo apt update
sudo apt upgrade -y

查看可更新的软件:

apt list --upgradable

系统更新通常包含:

  • systemd

  • apparmor

  • netplan

  • snapd

  • 安全补丁

  • 驱动兼容性修复

建议全部更新。


安装基础监控工具

htop / btop

查看 CPU、内存和进程状态:

sudo apt install -y htop btop

推荐:

btop

界面更现代。


NVMe 工具

查看 SSD 状态:

sudo apt install -y nvme-cli

查看健康信息:

sudo nvme smart-log /dev/nvme0

SMART 工具

sudo apt install -y smartmontools

查看磁盘健康:

sudo smartctl -a /dev/nvme0

安装温度监控

安装:

sudo apt install lm-sensors

检测:

sudo sensors-detect

查看:

sensors

X870E Taichi 风扇监控问题

刚安装完成时:

sensors

只能看到:

CPU
NVMe
AMD GPU

例如:

k10temp-pci-00c3
Tctl: +44°C

但是看不到:

风扇转速
主板温度

原因

X870E Taichi 使用的是:

Nuvoton NCT6799D

监控芯片。

Linux 默认没有自动加载对应模块。


手动加载

执行:

sudo modprobe nct6775

再次查看:

sensors

出现:

nct6799-isa-0290

fan1
fan2
fan3

SYSTIN
CPUTIN

TSI0_TEMP

说明主板监控芯片已经正常工作。


设置开机自动加载

创建配置文件:

sudo nano /etc/modules-load.d/nct6775.conf

内容:

nct6775

保存。

以后系统启动时会自动加载。


安装 NVIDIA 驱动

查看系统推荐驱动:

ubuntu-drivers devices

系统推荐:

nvidia-driver-595-open

但对于长期 AI 工作站,选择:

sudo apt install nvidia-driver-580

原因:

  • 稳定

  • CUDA 生态成熟

  • AI 用户使用量大

  • 兼容性经过长期验证


重启验证

sudo reboot

查看驱动:

nvidia-smi

输出:

NVIDIA-SMI 580.159.03
Driver Version: 580.159.03
CUDA Version: 13.0

NVIDIA GeForce RTX 3090

说明驱动安装成功。


GPU 实时监控

安装:

sudo apt install nvtop

运行:

nvtop

显示:

  • GPU 利用率

  • 显存占用

  • 温度

  • 功耗

  • PCIe 速率

  • 运行进程

对于 AI 开发非常方便。


Docker 安装

安装:

sudo apt install docker.io

启动:

sudo systemctl enable docker
sudo systemctl start docker

验证:

sudo docker ps

正常返回空列表即可。


Docker 权限问题

普通用户执行:

docker ps

可能出现:

permission denied while trying to connect to the docker API

解决:

sudo usermod -aG docker $USER

重新登录:

newgrp docker

验证:

docker ps

无需 sudo 即可使用。


安装 NVIDIA Container Toolkit

这是 Docker 调用 GPU 的关键。


添加仓库

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | \
sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

安装

sudo apt update
sudo apt install -y nvidia-container-toolkit

配置 Docker

sudo nvidia-ctk runtime configure --runtime=docker

重启:

sudo systemctl restart docker

验证 GPU 容器支持

执行:

docker run --rm --gpus all ubuntu:24.04 nvidia-smi

输出:

NVIDIA-SMI 580.159.03
Driver Version: 580.159.03
CUDA Version: 13.0
RTX 3090

说明:

Docker → NVIDIA Runtime → RTX 3090

踩坑

1.没有网络

在24.04中 记得一定要在安装的时候连接wifi 否则安装完成之后会发现没有网络,很多网络工具也没有内置,此时你在想连接wifi就很恶心了,不如在安装时就直接连接