如何在ubuntu上安装并使用llama.cpp
如何在ubuntu上安装使用llama.cpp
1.安装依赖
sudoapt update &&sudoapt upgrade -ysudoaptinstall build-essential cmake git libopenblas-dev libcurl4-openssl-dev 2.获取llama.cpp的源文件
git clone https://github.com/ggerganov/llama.cpp 3.开始编译
#进入目录cd llama.cpp/ mkdir build cd build #带openblas加速库进行编译# cmake .. -DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS cmake ..-DGGML_CUDA=ON cmake --build.--config Release -j4.模型格式转换
#进入工作目录cd llama.cpp/build/bin #将huggingface格式的模型转化从gguf python3 convert_hf_to_gguf.py /path/to/src_model \--outtype f16 --outfile /path/to/target_model.gguf 注意此处src_model不是单个文件,包含包括模型结构配置,权重配置,分词器配置在内的完整模型目录。taget_model.gguf是单个文件
量化
如果需要运行更小的模型文件,可以使用llama.cpp自带的量化工具
#进入工作目录cd llama.cpp/build/bin #将原来的模型量化成Q3_K_S ./llama-quantize src_model.gguf target_model_Q3_K_S.gguf Q3_K_S #可以查看其他可用的量化方案 ./llama-quantize --help如果上述工具运行报错,记得安装好依赖
#建议用conda做好环境隔离后再安装下列依赖,避免污染系统的基础环境 pip install transformers torch mistral_common sentencepiece \-i https://pypi.tuna.tsinghua.edu.cn/simple \ --trusted-host https://pypi.tuna.tsinghua.edu.cn 5.运行
直接使用llama-server
./llama-server -m model.gguf -c4096--host0.0.0.0 在浏览器上打开下列链接,即可开始对话
http://localhost:8080 获取模型
由于huggingface下载太慢,本文选择使用阿里的魔塔社区
这里以下载llama3.1-8B的模型为例
#0.安装modelscope工具 pip install modelscope #1.下载完整模型文件 modelscope download --model LLM-Research/Meta-Llama-3-8B-Instruct #2.查看模型位置,默认会存放在缓存目录ls ~/.cache/modelscope/hub/