使用LLama.cpp本地部署大模型

摘要

        llama.cpp是一个基于C/C++开发的高效大语言模型推理工具,支持跨平台部署和Docker快速启动,核心功能是在有限的计算资源情况下本地部署使用大模型。本文介绍了通过Docker方式部署llama.cpp的步骤,包括如何下载模型、CPU/GPU配置及启动参数说明。llama.cpp提供Web UI界面和OpenAI兼容API,支持文本和多模态对话,对电脑配置要求不高,完全免费且私密,让普通用户也能轻松在本地运行大语言模型。

LLama.cpp简介

       1. llama.cpp 是一个在 C/C++ 中实现大型语言模型(LLM)推理的工具

        2.支持跨平台部署,也支持使用 Docker 快速启动

        3.可以运行多种量化模型,对电脑要求不高,CPU/GPU设备均可流畅运行。

        支持模型包含:llama系列,qwen系列,gemma系列,Falcon、Alpaca、GPT4All、Chinese LLaMA、Vigogne、Vicuna、Koala、OpenBuddy、Pygmalion、Metharme、WizardLM、Baichuan、Aquila、Starcoder、Mistral AI、Refact、Persimmon、MPT、Bloom、StableLM-3b-4e1t等。

        4.开源地址参考:https://github.com/ggml-org/llama.cpp

        5.支持模型格式:GUFF(llama提供了转换成GUFF格式的工具)

        6.纯C/C++实现,没有任何依赖

        7.对Apple Silicon(如M1/M2/M3芯片)提供一流支持 - 通过ARM NEON、Accelerate和Metal框架优化

        8.支持x86架构的AVX、AVX2、AVX512和AMX指令集

        9.支持1.5位、2位、3位、4位、5位、6位和8位整数量化,实现更快的推理和更低的内存使用

为NVIDIA GPU提供自定义CUDA内核(通过HIP支持AMD GPU,通过MUSA支持摩尔线程MTT GPU)

        10.支持Vulkan和SYCL后端

        11.CPU+GPU混合推理,可部分加速大于总VRAM容量的模型     

        12.工作流程图:

大模型下载

        本文以Qwen3-VL-8B-Instruct-GGUF为列演示如何下载大模型。

        1.huggingface官网官网下载,https://huggingface.co/models

        2.modelscope(魔塔)下载

        登录huggingface需要科学上网,所以这里选择modelscope下载。

        第一,需要安装python,这个是基础,如果不会的话自己去搜索;

        第二,安装modelscope,打开CMD命令行,输入pip install modelscope;

        第三,在命令行中输入:

                modelscope download --model Qwen/Qwen3-VL-8B-Instruct-GGUF  --local_dir  qwen

                加--local_dir参数是为了指定到的地址。

    下面是我的命令行:

        通过以上命令可以将Qwen3-VL-8B-Instruct-GGUF中的所有文件下载到d:/llm-models/qwen文件夹中,等待下载完成即可。如果只是下载部分文件也可以自己指定,具体怎么操作可以去查看modelscope中的文档说明:Qwen3-VL-8B-Instruct-GGUF · 模型库

下载llama.cpp

         llama.cpp有已经编译好的可直接执行的程序,如果仅仅是部署使用,可直接下载对应版本,下载地址:

        llama.cpp编译版本下载连接

  运行大模型Llama-cli

        使用llama-cli运行指定的大模型

        

这是运行成功后的界面:

        然后就可以直接在上面输入信息与大模型对话了:

 编译llama.cpp源码

需要的环境如下:

1.下载cmake,Download CMake

2.带有 "使用 C++ 的桌面开发" 工作负载的 Visual Studio Community Edition

3.下载llama.cpp源码(也可以使用git下载),https://github.com/ggerganov/llama.cpp

使用cmd进入llama.cpp的源码目录:

先运行:cmake -B build

如果没有安装CURL,会出现如下提示:

禁用CURL即可,即使用下面的命令:

cmake -B build -DLLAMA_CURL=OFF

会出现如下的警告,不用管。

然后再运行:cmake --build build --config Release

        大概10分钟左右,编译好的dll和可执行文件就好了,基本不会出现其他问题。

        

后记

        如果大模型太大,导入时可能会提示缓存不够,那就换个小点的模型。

Read more

VSCode + Copilot 保姆级 AI 编程实战教程,免费用 Claude,夯爆了!

VSCode + Copilot 保姆级 AI 编程实战教程,免费用 Claude,夯爆了!

从安装到实战,手把手教你用 VSCode + GitHub Copilot 进行 AI 编程 你好,我是程序员鱼皮。 AI 编程工具现在是真的百花齐放,Cursor、Claude Code、OpenCode、…… 每隔一段时间就冒出来一个新选手。 之前我一直沉迷于 Cursor 和 Claude Code,直到最近做新项目时认真体验了一把 GitHub Copilot, 才发现这玩意儿真夯啊! 先简单介绍一下主角。VSCode 是微软出品的全球最流行的代码编辑器,装机量破亿;GitHub Copilot 则是 GitHub 官方出品的 AI 编程助手插件,直接安装在 VSCode 中使用。 个人体验下来,相比其他 AI 编程工具有 4 大优势: 1. 支持最新 AI 大模型,

在昇腾 NPU 上跑 Llama 大模型:从 “踩坑到通关” 的全程实战记

在昇腾 NPU 上跑 Llama 大模型:从 “踩坑到通关” 的全程实战记

在昇腾 NPU 上跑 Llama 大模型:从 “踩坑到通关” 的搞笑实战记 本文分享了在昇腾 NPU 上部署测试 Llama-2-7B 大模型的全过程。提供踩坑经验。作者因其他硬件价格高、服务器昂贵,选择昇腾 NPU,其自主可控的达芬奇架构、完善的开源生态及 GitCode 免费测试资源是主要吸引力。文中详细介绍了 GitCode 上创建昇腾 Notebook 实例的关键配置、环境验证方法,以及安装 transformers 库、下载部署模型的步骤,还记录了遇到的 “torch.npu 找不到”“模型下载需权限” 等四个常见问题及解决方案。通过测试英文生成、中文对话、代码生成三种场景,得出 16-17 tokens/s 的吞吐量,虽低于预期但性能稳定,并给出使用 MindSpeed-LLM 框架、

2026 年 AI 辅助编程工具全景对比:Copilot、Cursor、Claude Code 与 Codex 深度解析

引言 2026 年,AI 辅助编程已经从"尝鲜"变成了"标配"。从 GitHub Copilot 的横空出世,到 Cursor 的异军突起,再到 Claude Code 的强势入局,AI 编程助手正在重塑开发者的工作方式。但面对市面上琳琅满目的工具,你是否也有这样的困惑:哪个工具最适合我?它们之间到底有什么区别? 本文将深入对比四款主流 AI 编程工具,帮你找到最适合自己的那一款。 AI 辅助编程的演进之路 从代码补全到智能协作 早期的 AI 编程工具,如 OpenAI Codex,主要聚焦于代码补全——你写一行,它接下一行。但到了 2026 年,AI 编程助手已经进化成真正的&

法奥机器人ROS2环境搭建

法奥机器人ROS2环境搭建

目录 第一章  SDK文件准备    1.1  机器人软件版本查看  第二章 测试平台搭建 2.1虚拟平台安装                     2.1.1虚拟机安装              2.1.2ubuntu 的安装 第三章 软件环境搭建         3.1  vscode安装 3.2vscode插件安装 3.3  ROS 及环境变量配置 3.1.1 Ros2-humble版本 安装 3.1.2  Ros-control版本安装 3.1.3   Moveit2版本安装 第四章  插件包导入及插件测试         4.1 MOVEIT2插件包导入 4.2 RVIZ 仿真操作简介