Ollama部署大模型 - 兰皋-我的笔记

模型基本信息

项目	值
模型大小	1.0 GB（Q8_0 量化）
上下文窗口	256K tokens
支持能力	Text + Image（vision）
默认参数	temperature=1, top_k=20, top_p=0.95, presence_penalty=1.5

安装 Ollama

官方

curl -fsSL https://ollama.com/install.sh | sh

加速

export OLLAMA_MIRROR="https://gh-proxy.org/https://github.com/ollama/ollama/releases/latest/download"
curl -fsSL https://ollama.com/install.sh | sed "s|https://ollama.com/download|$OLLAMA_MIRROR|g" | sh

验证安装：

ollama --version

启动 Ollama 服务

# 前台运行（调试时用）
ollama serve

# 或后台 systemd 方式（推荐）
sudo systemctl enable ollama
sudo systemctl start ollama
sudo systemctl status ollama

拉取并运行模型

# 拉取模型（~1GB）
ollama pull qwen3.5:0.8b

# 交互式对话测试
ollama run qwen3.5:0.8b

API 调用验证

REST API（兼容 OpenAI 格式）：

# 非流式
curl http://localhost:11434/api/chat \
  -d '{
    "model": "qwen3.5:0.8b",
    "messages": [{"role": "user", "content": "你好，简单介绍一下你自己"}],
    "stream": false
  }'

# OpenAI 兼容接口
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:0.8b",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

Thinking 模式控制

Qwen3.5 小模型默认关闭 thinking（非推理模式，响应更快）：

# 启用 thinking 模式
ollama run qwen3.5:0.8b "/think 解释一下递归的原理"

# 明确禁用 thinking（默认行为）
ollama run qwen3.5:0.8b "/no_think 什么是 JVM"

常用管理命令

服务管理（systemd）

sudo systemctl start ollama        # 启动服务
sudo systemctl stop ollama         # 停止服务
sudo systemctl restart ollama      # 重启服务
sudo systemctl status ollama       # 查看服务状态
sudo systemctl enable ollama       # 开机自启
sudo systemctl disable ollama      # 取消开机自启

# 查看服务日志
sudo journalctl -u ollama -f       # 实时跟踪日志
sudo journalctl -u ollama -n 100   # 查看最近 100 行日志

模型管理

ollama pull qwen3.5:0.8b           # 下载模型
ollama list                        # 查看本地已下载模型
ollama ps                          # 查看当前运行中的模型
ollama show qwen3.5:0.8b           # 查看模型详情（参数/模板等）
ollama rm qwen3.5:0.8b             # 删除模型
ollama cp qwen3.5:0.8b mymodel     # 复制模型（用于自定义）

模型运行

ollama run qwen3.5:0.8b                        # 交互式对话
ollama run qwen3.5:0.8b "你好"                 # 单次问答
ollama run qwen3.5:0.8b --verbose "你好"       # 显示详细推理信息（token 速度等）
echo "解释 JVM 内存模型" | ollama run qwen3.5:0.8b  # 管道输入

健康检查

curl http://localhost:11434/              # 服务是否存活（返回 "Ollama is running"）
curl http://localhost:11434/api/tags      # 列出已加载模型（JSON）
curl http://localhost:11434/api/version   # 查看 Ollama 版本

局域网访问配置

默认 Ollama 仅监听 127.0.0.1:11434，局域网其他设备无法访问，需修改监听地址。

方式一：systemd 环境变量（推荐，持久化）

# 创建 systemd override 配置
sudo mkdir -p /etc/systemd/system/ollama.service.d
sudo tee /etc/systemd/system/ollama.service.d/override.conf << 'EOF'
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
EOF

# 重载并重启
sudo systemctl daemon-reload
sudo systemctl restart ollama

# 验证监听地址
ss -tlnp | grep 11434

方式二：临时前台运行（调试用）

OLLAMA_HOST=0.0.0.0:11434 ollama serve

防火墙放行端口

# ufw（Ubuntu 默认防火墙）
sudo ufw allow 11434/tcp
sudo ufw reload
sudo ufw status

# 或指定仅对局域网网段放行（更安全）
sudo ufw allow from 192.168.1.0/24 to any port 11434

局域网客户端访问验证

# 在局域网其他机器上执行，替换 <SERVER_IP> 为部署机 IP
curl http://<SERVER_IP>:11434/api/chat \
  -d '{
    "model": "qwen3.5:0.8b",
    "messages": [{"role": "user", "content": "你好"}],
    "stream": false
  }'

跨域访问（供前端/WebUI 调用）

sudo tee /etc/systemd/system/ollama.service.d/override.conf << 'EOF'
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"
EOF

sudo systemctl daemon-reload && sudo systemctl restart ollama

安全建议：个人开发/调试环境可直接开放，生产或共享环境建议在 Nginx 前置加 Basic Auth 或 API Key 鉴权。

注意事项

模型存储路径：默认在 ~/.ollama/models，可通过 OLLAMA_MODELS 环境变量修改
端口暴露：默认仅监听 127.0.0.1:11434，若需局域网访问，设置 OLLAMA_HOST=0.0.0.0:11434
已知 Bug：早期版本 qwen3.5 有重复输出问题，确保 Ollama 版本是最新的（已修复），如遇到可重新 ollama pull qwen3.5:0.8b
vision 能力：该模型支持图像输入，API 传图时使用 base64 编码

本站文章除注明转载/出处外，均为本站原创或翻译，转载前请务必署名,转载请标明出处
最后编辑时间为: 2026/04/02 15:34