1. 如果你仅用 Open-WebUI 作为 Ollama 的 “界面”(90% 用户场景) 不需要 CUDA 版本,用 latest 基础版即可:
原因:Open-WebUI 本身是前端界面,核心的模型推理(如 gemma3:12b 的计算)由 Ollama 负责,而你已配置 Ollama 调用 3090 的 GPU(通过 CUDA 驱动)。此时 Open-WebUI 仅处理界面渲染、对话管理,不涉及 GPU 计算,基础版完全足够。
优势:镜像体积小(4.3GB vs CUDA 版 10.6GB),启动更快,资源占用更低。
2. 如果你需要 Open-WebUI 自身处理 GPU 任务(少数场景) 建议用 CUDA 版本,例如:
使用 Open-WebUI 的 多模态功能(如上传图片让模型分析、生成图像 / 视频),此时 Open-WebUI 会直接调用 GPU 加速图像处理。
启用 Open-WebUI 的 本地模型微调、嵌入计算 等高级功能,这些操作依赖 CUDA 加速。
原因:CUDA 版本的镜像内置了与 CUDA 驱动匹配的运行时库,能直接利用你已安装的 CUDA 环境,避免 “驱动与运行时不兼容” 的问题。 总结:按需求选择 文本对话为主 → 用 latest 基础版(推荐):
sudo docker run -d --name open-webui --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --restart always ghcr.io/open-webui/open-webui:latest
多模态 / 高级 GPU 任务 → 用 cuda 版:
sudo docker run -d --name open-webui --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --gpus all --restart always ghcr.io/open-webui/open-webui:cuda
两种版本都能正常对接 Ollama 的 GPU 推理,区别仅在于 Open-WebUI 自身是否直接使用 CUDA。根据你的使用场景选择即可,后续也可随时切换版本(删除容器后重新启动对应镜像)。
3. 验证 Ollama 连接:
界面左下角 → 「设置」→「外部连接」,Ollama API 应显示「已连接」,且模型列表会加载 Ollama 中已下载的模型。
评论 (0)