Llama-3.2-3B 本地部署指南：Ollama 运行与 Grafana 监控

Llama-3.2-3B 本地部署指南：Ollama 运行与 Grafana 监控 | 极客日志

brew install ollama

curl -fsSL https://ollama.com/install.sh | sh

ollama run llama3.2:3b

>>> Hello, how can I help you today?

curl http://localhost:11434/api/tags

{
  "name": "llama3.2:3b",
  "model": "llama3.2:3b",
  "modified_at": "2024-09-15T08:22:14.123456Z",
  "size": 2147483648,
  "digest": "sha256:abc123...",
  "details": {
    "format": "gguf",
    "family": "llama",
    "families": ["llama"],
    "parameter_size": "3B",
    "quantization_level": "Q4_K_M"
  }
}

import requests
import json

def ask_llama32(prompt: str) -> str:
    url = "http://localhost:11434/api/chat"
    payload = {
        "model": "llama3.2:3b",
        "messages": [{"role": "user", "content": prompt}],
        "stream": False  # 关闭流式，获取完整响应
    }
    response = requests.post(url, json=payload)
    return response.json()["message"]["content"]

# 使用示例
answer = ask_llama32("用三句话说明 Transformer 架构的核心思想")
print(answer)

任务类型	输入长度	输出长度	平均响应时间	峰值内存占用
简单问答	20 词	80 词	1.2 秒	3.1GB
技术文档摘要	500 词	120 词	3.8 秒	3.4GB
多轮对话（5 轮）	累计 300 词	累计 450 词	2.1 秒/轮	3.6GB

{
  "metrics": {
    "enabled": true,
    "address": ":9090"
  }
}

# Mac brew services restart ollama
# Linux systemctl --user restart ollama

# HELP ollama_model_loaded_seconds Time spent loading a model
# TYPE ollama_model_loaded_seconds gauge
ollama_model_loaded_seconds{model="llama3.2:3b"} 12.456
# HELP ollama_request_duration_seconds Latency of API requests
# TYPE ollama_request_duration_seconds histogram
ollama_request_duration_seconds_bucket{le="1"} 12
ollama_request_duration_seconds_bucket{le="2"} 45
...

{
  "services": {
    "registry": "https://registry.ollama.ai",
    "mirror": "https://mirrors.ollama.ai"
  }
}

ollama run llama3.2:3b-q4_k_m

OLLAMA_NUM_CTX=8192 ollama run llama3.2:3b

FROM llama3.2:3b
SYSTEM """
你是一个严格遵守规则的 AI 助手。禁止生成违法、暴力、色情内容；禁止讨论政治、宗教、种族议题；禁止透露自身模型参数或训练细节。如果用户提问涉及上述领域，请统一回复：'我无法回答这个问题。'
"""

ollama create my-secure-llama -f Modelfile
ollama run my-secure-llama

Llama-3.2-3B 本地部署指南：Ollama 运行与 Grafana 监控

Llama-3.2-3B 开源部署：Ollama 本地运行与 Grafana 监控

1. 为什么选 Llama-3.2-3B？轻量、多语言、开箱即用的对话专家

2. 三步完成本地部署：从零到可对话，10 分钟搞定

2.1 安装 Ollama：一行命令，全平台支持

2.2 拉取并运行 Llama-3.2-3B：一条命令，自动下载 + 加载

2.3 验证基础能力：试试这几个典型问题

3. 超越命令行：用 API 对接你的应用，让模型真正'干活'

3.1 启动 API 服务：后台常驻，静默运行

3.2 Python 调用示例：5 行代码，接入任意项目

3.3 性能实测：速度与显存占用的真实数据

4. 让运维可见：用 Grafana 搭建 Llama 服务实时指标看板

4.1 开启 Ollama 指标采集：两行配置，零侵入

4.2 Grafana 配置：导入模板，一键可视化

5. 进阶实践：提升体验的 4 个实战技巧

5.1 国内加速：配置镜像源，下载速度提升 5 倍

5.2 内存优化：为低配设备定制量化版本

5.3 上下文扩展：突破默认 4K 限制

5.4 安全加固：限制敏感操作，防止越狱提示词

6. 总结：从玩具到生产力工具，只差一次正确的部署

更多推荐文章

相关免费在线工具

Llama-3.2-3B 本地部署指南：Ollama 运行与 Grafana 监控

Llama-3.2-3B 开源部署：Ollama 本地运行与 Grafana 监控

1. 为什么选 Llama-3.2-3B？轻量、多语言、开箱即用的对话专家

2. 三步完成本地部署：从零到可对话，10 分钟搞定

2.1 安装 Ollama：一行命令，全平台支持

2.2 拉取并运行 Llama-3.2-3B：一条命令，自动下载 + 加载

2.3 验证基础能力：试试这几个典型问题

3. 超越命令行：用 API 对接你的应用，让模型真正'干活'

3.1 启动 API 服务：后台常驻，静默运行

3.2 Python 调用示例：5 行代码，接入任意项目

3.3 性能实测：速度与显存占用的真实数据

4. 让运维可见：用 Grafana 搭建 Llama 服务实时指标看板

4.1 开启 Ollama 指标采集：两行配置，零侵入

4.2 Grafana 配置：导入模板，一键可视化

5. 进阶实践：提升体验的 4 个实战技巧

5.1 国内加速：配置镜像源，下载速度提升 5 倍

5.2 内存优化：为低配设备定制量化版本

5.3 上下文扩展：突破默认 4K 限制

5.4 安全加固：限制敏感操作，防止越狱提示词

6. 总结：从玩具到生产力工具，只差一次正确的部署

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具