最近组装了一台专门用于本地 AI、大模型、语音和视觉任务的工作站。为了后续运行 vLLM、Open WebUI、ComfyUI、Whisper、TTS 等服务,我选择了 Ubuntu Server 24.04.4 LTS 作为基础系统。
主机配置
CPU:AMD Ryzen 9 9900X
主板:ASRock X870E Taichi
显卡:NVIDIA GeForce RTX 3090
内存:DDR5 6000MHz 24GB × 2
SSD:PCIe 5.0 NVMe SSD 2TB
电源:Seasonic PRIME TX-1600
机箱:Cooler Master COSMOS ALPHA
为什么选择 Ubuntu Server 24.04 LTS
AI 生态目前最主流的环境依然是:
Ubuntu 22.04 LTS
Ubuntu 24.04 LTS
虽然 Ubuntu 26.04 已经发布,但许多 AI 项目仍然优先验证:
Docker
CUDA
PyTorch
vLLM
SGLang
ComfyUI
Ollama
在 22.04 和 24.04 上的兼容性。
对于长期运行的 AI 工作站来说:
稳定 > 新功能因此最终选择:
Ubuntu Server 24.04.4 LTS系统更新
安装完成后首先更新系统:
sudo apt update
sudo apt upgrade -y查看可更新的软件:
apt list --upgradable系统更新通常包含:
systemd
apparmor
netplan
snapd
安全补丁
驱动兼容性修复
建议全部更新。
安装基础监控工具
htop / btop
查看 CPU、内存和进程状态:
sudo apt install -y htop btop推荐:
btop界面更现代。
NVMe 工具
查看 SSD 状态:
sudo apt install -y nvme-cli查看健康信息:
sudo nvme smart-log /dev/nvme0SMART 工具
sudo apt install -y smartmontools查看磁盘健康:
sudo smartctl -a /dev/nvme0安装温度监控
安装:
sudo apt install lm-sensors检测:
sudo sensors-detect查看:
sensorsX870E Taichi 风扇监控问题
刚安装完成时:
sensors只能看到:
CPU
NVMe
AMD GPU例如:
k10temp-pci-00c3
Tctl: +44°C但是看不到:
风扇转速
主板温度原因
X870E Taichi 使用的是:
Nuvoton NCT6799D监控芯片。
Linux 默认没有自动加载对应模块。
手动加载
执行:
sudo modprobe nct6775再次查看:
sensors出现:
nct6799-isa-0290
fan1
fan2
fan3
SYSTIN
CPUTIN
TSI0_TEMP说明主板监控芯片已经正常工作。
设置开机自动加载
创建配置文件:
sudo nano /etc/modules-load.d/nct6775.conf内容:
nct6775保存。
以后系统启动时会自动加载。
安装 NVIDIA 驱动
查看系统推荐驱动:
ubuntu-drivers devices系统推荐:
nvidia-driver-595-open但对于长期 AI 工作站,选择:
sudo apt install nvidia-driver-580原因:
稳定
CUDA 生态成熟
AI 用户使用量大
兼容性经过长期验证
重启验证
sudo reboot查看驱动:
nvidia-smi输出:
NVIDIA-SMI 580.159.03
Driver Version: 580.159.03
CUDA Version: 13.0
NVIDIA GeForce RTX 3090说明驱动安装成功。
GPU 实时监控
安装:
sudo apt install nvtop运行:
nvtop显示:
GPU 利用率
显存占用
温度
功耗
PCIe 速率
运行进程
对于 AI 开发非常方便。
Docker 安装
安装:
sudo apt install docker.io启动:
sudo systemctl enable docker
sudo systemctl start docker验证:
sudo docker ps正常返回空列表即可。
Docker 权限问题
普通用户执行:
docker ps可能出现:
permission denied while trying to connect to the docker API解决:
sudo usermod -aG docker $USER重新登录:
newgrp docker验证:
docker ps无需 sudo 即可使用。
安装 NVIDIA Container Toolkit
这是 Docker 调用 GPU 的关键。
添加仓库
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | \
sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpgcurl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list安装
sudo apt update
sudo apt install -y nvidia-container-toolkit配置 Docker
sudo nvidia-ctk runtime configure --runtime=docker重启:
sudo systemctl restart docker验证 GPU 容器支持
执行:
docker run --rm --gpus all ubuntu:24.04 nvidia-smi输出:
NVIDIA-SMI 580.159.03
Driver Version: 580.159.03
CUDA Version: 13.0
RTX 3090说明:
Docker → NVIDIA Runtime → RTX 3090踩坑
1.没有网络
在24.04中 记得一定要在安装的时候连接wifi 否则安装完成之后会发现没有网络,很多网络工具也没有内置,此时你在想连接wifi就很恶心了,不如在安装时就直接连接