Meta-Llama-3-8B-Instruct 部署常见问题与解决方案

Meta-Llama-3-8B-Instruct 部署常见问题与解决方案 | 极客日志

属性	值
模型名称	Meta-Llama-3-8B-Instruct
参数类型	Dense（全连接），8B
显存需求（FP16）	~16 GB
GPTQ-INT4 压缩后大小	~4 GB
上下文长度	原生 8,192 tokens，可外推至 16,384
推理硬件要求	RTX 3060 及以上（12GB 显存起步）
微调支持	LoRA/QLoRA，Llama-Factory 内置模板
训练显存需求（LoRA, BF16）	≥22 GB
协议	Meta Llama 3 Community License（月活 <7 亿可商用）

docker logs -f <container_id>

http://<your-server-ip>:7860

ImportError: cannot import name 'PreTrainedModel' from 'transformers'

ModuleNotFoundError: No module named 'vllm._C'

组件	要求版本	冲突点
Llama-Factory	transformers >=4.41.2, <=4.43.4	不兼容最新版 transformers
vLLM	transformers 最新版（如 4.44+）	否则无法编译 `_C` 扩展模块

CUDA_VISIBLE_DEVICES=0 python src/api.py --model_name_or_path /path/to/Meta-Llama-3-8B-Instruct --template llama3 --infer_backend huggingface

环境	用途	安装组件	推荐方式
env-vllm	运行 vLLM 推理服务	vLLM + 最新版 transformers	conda create -n vllm python=3.10
env-lora	微调与 API 调试	Llama-Factory + transformers==4.43.4	conda create -n lora python=3.10

OutOfMemoryError: CUDA out of memory.

finetuning_type: qlora
quantization_bit: 4

# 在 Llama-Factory 的配置文件中添加 gradient_checkpointing: true

You are a helpful assistant. Please respond in Simplified Chinese.

AssertionError: CUDA is not available

PermissionError: [Errno 13] Permission denied

FileNotFoundError: No such file or directory: '/models/Meta-Llama-3-8B-Instruct'

--max-model-len 8192

--tensor-parallel-size 2

微信扫一扫，关注极客日志