Ollama部署大模型

/ AI应用 / 0 条评论 / 97浏览

模型基本信息

项目
模型大小1.0 GB(Q8_0 量化)
上下文窗口256K tokens
支持能力Text + Image(vision)
默认参数temperature=1, top_k=20, top_p=0.95, presence_penalty=1.5

安装 Ollama

curl -fsSL https://ollama.com/install.sh | sh
export OLLAMA_MIRROR="https://gh-proxy.org/https://github.com/ollama/ollama/releases/latest/download"
curl -fsSL https://ollama.com/install.sh | sed "s|https://ollama.com/download|$OLLAMA_MIRROR|g" | sh

验证安装:

ollama --version

启动 Ollama 服务

# 前台运行(调试时用)
ollama serve

# 或后台 systemd 方式(推荐)
sudo systemctl enable ollama
sudo systemctl start ollama
sudo systemctl status ollama

拉取并运行模型

# 拉取模型(~1GB)
ollama pull qwen3.5:0.8b

# 交互式对话测试
ollama run qwen3.5:0.8b

API 调用验证

REST API(兼容 OpenAI 格式):

# 非流式
curl http://localhost:11434/api/chat \
  -d '{
    "model": "qwen3.5:0.8b",
    "messages": [{"role": "user", "content": "你好,简单介绍一下你自己"}],
    "stream": false
  }'

# OpenAI 兼容接口
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:0.8b",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

Thinking 模式控制

Qwen3.5 小模型默认关闭 thinking(非推理模式,响应更快):

# 启用 thinking 模式
ollama run qwen3.5:0.8b "/think 解释一下递归的原理"

# 明确禁用 thinking(默认行为)
ollama run qwen3.5:0.8b "/no_think 什么是 JVM"

常用管理命令

服务管理(systemd)

sudo systemctl start ollama        # 启动服务
sudo systemctl stop ollama         # 停止服务
sudo systemctl restart ollama      # 重启服务
sudo systemctl status ollama       # 查看服务状态
sudo systemctl enable ollama       # 开机自启
sudo systemctl disable ollama      # 取消开机自启

# 查看服务日志
sudo journalctl -u ollama -f       # 实时跟踪日志
sudo journalctl -u ollama -n 100   # 查看最近 100 行日志

模型管理

ollama pull qwen3.5:0.8b           # 下载模型
ollama list                        # 查看本地已下载模型
ollama ps                          # 查看当前运行中的模型
ollama show qwen3.5:0.8b           # 查看模型详情(参数/模板等)
ollama rm qwen3.5:0.8b             # 删除模型
ollama cp qwen3.5:0.8b mymodel     # 复制模型(用于自定义)

模型运行

ollama run qwen3.5:0.8b                        # 交互式对话
ollama run qwen3.5:0.8b "你好"                 # 单次问答
ollama run qwen3.5:0.8b --verbose "你好"       # 显示详细推理信息(token 速度等)
echo "解释 JVM 内存模型" | ollama run qwen3.5:0.8b  # 管道输入

健康检查

curl http://localhost:11434/              # 服务是否存活(返回 "Ollama is running")
curl http://localhost:11434/api/tags      # 列出已加载模型(JSON)
curl http://localhost:11434/api/version   # 查看 Ollama 版本

局域网访问配置

默认 Ollama 仅监听 127.0.0.1:11434,局域网其他设备无法访问,需修改监听地址。

方式一:systemd 环境变量(推荐,持久化)

# 创建 systemd override 配置
sudo mkdir -p /etc/systemd/system/ollama.service.d
sudo tee /etc/systemd/system/ollama.service.d/override.conf << 'EOF'
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
EOF

# 重载并重启
sudo systemctl daemon-reload
sudo systemctl restart ollama

# 验证监听地址
ss -tlnp | grep 11434

方式二:临时前台运行(调试用)

OLLAMA_HOST=0.0.0.0:11434 ollama serve

防火墙放行端口

# ufw(Ubuntu 默认防火墙)
sudo ufw allow 11434/tcp
sudo ufw reload
sudo ufw status

# 或指定仅对局域网网段放行(更安全)
sudo ufw allow from 192.168.1.0/24 to any port 11434

局域网客户端访问验证

# 在局域网其他机器上执行,替换 <SERVER_IP> 为部署机 IP
curl http://<SERVER_IP>:11434/api/chat \
  -d '{
    "model": "qwen3.5:0.8b",
    "messages": [{"role": "user", "content": "你好"}],
    "stream": false
  }'

跨域访问(供前端/WebUI 调用)

sudo tee /etc/systemd/system/ollama.service.d/override.conf << 'EOF'
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"
EOF

sudo systemctl daemon-reload && sudo systemctl restart ollama

安全建议:个人开发/调试环境可直接开放,生产或共享环境建议在 Nginx 前置加 Basic Auth 或 API Key 鉴权。


注意事项