Llama-3.2-3B 部署优化：Ollama 配置上下文窗口与 Token 限制

Llama-3.2-3B 部署优化：Ollama 配置上下文窗口与 Token 限制 | 极客日志

# 检查 Ollama 服务状态（Linux/macOS）
curl http://localhost:11434/api/tags
# 或者直接列出已拉取的模型
ollama list

ollama pull llama3.2:3b

# 基于官方的 llama3.2:3b 镜像
FROM llama3.2:3b

# 设置系统提示词（可选，但推荐）
PARAMETER system "你是一个乐于助人且知识渊博的 AI 助手。请用清晰、准确的中文回答用户的问题。"

# !!! 核心参数调整开始 !!!
# 1. 调整温度，控制生成随机性 (0.1-2.0)
PARAMETER temperature 0.7

# 2. 调整上下文窗口大小 (关键！默认可能是 8192)
# 值必须是 64 的倍数。根据硬件调整内存占用。
# PARAMETER num_ctx 8192   # 默认档
PARAMETER num_ctx 16384    # 推荐档，适合长对话
# PARAMETER num_ctx 32768  # 大内存档，需 16GB+ RAM

# 3. 调整单次生成的最大 token 数
PARAMETER num_predict 4096

# 切换到 Modelfile 所在目录
cd ~/Desktop
# 执行创建命令
ollama create my-llama3.2-3b-longctx -f ./Modelfile

ollama run my-llama3.2-3b-longctx

第一轮输入（提供背景）：

用户：请记住以下关于主角'小明'的设定：小明是一位生活在 22 世纪的太空工程师，他有一只机械宠物狗叫'火花'，最喜欢的食物是合成披萨。他目前正在执行一项前往火星的长期任务。

（等待模型确认）

第二轮输入（插入干扰）：
```
用户：请给我解释一下量子计算的基本概念。
```
（让模型回答，填充部分上下文窗口）

第三轮输入（关键测试）：

用户：根据我们最开始聊的，小明的宠物狗叫什么名字？他现在在做什么任务？

用户：请以'人工智能的未来'为主题，撰写一篇约 800 字的短文，需包含技术发展、伦理挑战和应用前景三个方面。

import requests
import json

url = "http://localhost:11434/api/generate"
payload = {
    "model": "my-llama3.2-3b-longctx",
    "prompt": "你好，请介绍一下你自己。",
    "stream": False,
    "options": {
        "num_predict": 4096,
        "temperature": 0.7
    }
}
response = requests.post(url, json=payload)
result = response.json()
print(result['response'])

ollama show llama3.2:3b --modelfile

Llama-3.2-3B 部署优化：Ollama 配置上下文窗口与 Token 限制

Llama-3.2-3B 部署优化：Ollama 配置上下文窗口与 Token 限制

1. 核心概念：为什么需要调整 Context Window 和 Token 限制？

1.1 什么是 Context Window（上下文窗口）？

1.2 什么是 Token 和 Token 限制？

2. 环境准备：确认你的 Ollama 与模型状态

3. 核心操作：创建并配置自定义 Modelfile

3.1 创建 Modelfile

3.2 创建自定义模型

4. 验证与测试：看看效果如何

4.1 运行自定义模型

4.2 进行长上下文测试

4.3 进行长文本生成测试

5. 进阶技巧与问题排查

5.1 通过 Ollama API 使用自定义模型

5.2 常见问题排查

6. 总结

更多推荐文章

相关免费在线工具

Llama-3.2-3B 部署优化：Ollama 配置上下文窗口与 Token 限制

Llama-3.2-3B 部署优化：Ollama 配置上下文窗口与 Token 限制

1. 核心概念：为什么需要调整 Context Window 和 Token 限制？

1.1 什么是 Context Window（上下文窗口）？

1.2 什么是 Token 和 Token 限制？

2. 环境准备：确认你的 Ollama 与模型状态

3. 核心操作：创建并配置自定义 Modelfile

3.1 创建 Modelfile

3.2 创建自定义模型

4. 验证与测试：看看效果如何

4.1 运行自定义模型

4.2 进行长上下文测试

4.3 进行长文本生成测试

5. 进阶技巧与问题排查

5.1 通过 Ollama API 使用自定义模型

5.2 常见问题排查

6. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具