llama.cpp重大更新：自带Web UI，性能超越Ollama，本地大模型部署新选择！

优质文章学习记录

07 Apr 2026 — 8 min read

Ollama 背后执行推理的核心技术其实是由 llama.cpp 承担的，GGUF 模型格式也是由 llama.cpp 的作者所开发。

现在 llama.cpp 迎来重大更新，它也有了自己的 Web UI，我测试了安装部署和自行打包，很多地方确实比 Ollama 还有方便好用。

官方介绍，优势如下：

完全免费、开源且由社区驱动
在所有硬件上表现出色
高级上下文和前缀缓存
并行和远程用户支持
极其轻量级且内存高效
充满活力且富有创造力的社区
100% 隐私

使用之前需要先安装 llama.cpp server

我还是喜欢命令行直接安装

## Winget (Windows)winget install llama.cpp## Homebrew (Mac and Linux)brew install llama.cpp

然后启动 UI，也是命令行，为了快速测试，我调用 Qwen2.5 的 0.5b

llama-server -hf Qwen/Qwen2.5-0.5B-Instruct-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033

量化后模型文件来到不到 500Mb，我发现它默认选 q4_k_m

然后浏览器打开

随便问个问题，速度 97t/s

对比 Ollama 82t/s的样子

其他功能也都挺实用

从磁盘或剪贴板添加多个文本文件到对话的上下文中

将一个或多个 PDF 附件添加到对话中。默认情况下，PDF 的内容将被转换为纯文本，不包括任何视觉元素。

也可以在 AI 模型支持的情况下将 PDF 处理为图像。

当所选的 AI 模型具有视觉输入能力时，可以在对话中插入图片：

图片可以与文本上下文一起插入：

可以渲染数学表达式：

使用 Import/Export 选项直接管理私人对话：

新的 WebUI 对移动设备友好：

其他功能还有，比如：

支持通过 URL 参数传递输入
根据之前的讨论点编辑或重新生成消息以创建分支
同时运行多个聊天对话
并行图像处理
支持嵌入式渲染生成的 HTML/JS 代码
指定一个自定义的 JSON 模式以约束生成的输出到特定格式

目前硬伤是只能浏览器，想打包成 app 也可以，我使用的是 tw93 开发的 pake，一行命令即可，本地服务也可以打包成 app

然后它就将只能浏览器访问的 web 应用打包成 app 了

如此轻量舒服的应用，我与这位网友有相同的期待——支持其他模型的接入

总结来看，比之前想要挑战 ollama 的 Shimmy 要好很多，但是 Ollama 玩了这么久也不是吃素的 1、Ollama 有更加方便的 app，随时切换本地模型甚是方便 2、Ollama 还有免费云模型可以调用呢，deepseek-v3.1:671b-cloud都敢给 3、网络问题，它目前只能支持 HF 下载模型，国内用户不友好 4、网络搜索和 MCP 也不支持

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

关闭Visual Studio 2022中Copilot的AI自动代码补全功能

第一步：找到VS页面右上角的Copilot标志第二步：点击“设置”，选择“选项”，出现如图所示窗口。取消勾选“启用Copilot完成”，点击“确定”，即可关闭VS中Copilot自动代码补全。

DeepSeek、Kimi、笔灵谁最好用？5款网文作者亲测的AI写作神器横评

作为在网文圈一路摸爬滚打过来的我，面对“AI写小说”这个现象，心情其实挺复杂的。这有点像工业革命时期的纺织工人看着蒸汽机——恐惧是真的，但效率的碾压也是真的。不是纯用AI生成，而是用AI搭建了极其高效的“外挂工作流”。有人用它日更两万字，有人用它把废稿救活。当然，不是纯用AI生成，而是用AI搭建了极其高效的“外挂工作流”。为了不让大家白给工具交学费，我实测了市面上十几款软件，挑出了这5款真正能嵌入小说创作流的“神器”。 1️⃣ DeepSeek：除了逻辑强，它还很懂中式网文适合人群：玄幻、仙侠、古言作者，以及看重文章设定和逻辑的人。直通车：https://www.deepseek.com/ 很多人吹DeepSeek的逻辑和代码能力，但在写小说上，它有一个小众的用法是做体系。 👉 独家用法：你可以用它来写“设定集”和“功法体系”。你可以参考图片中我的指令来和它对话：它吐出来的东西，特有那味，既有传统网文的爽感，又有你指令里要的感觉。所以虽然它的逻辑能力也在线，但你也不要忽略了它在描写和设定生成上的亮点！

【OpenClaw：赚钱】案例19、内容产量5倍、广告收入翻4倍：播客转多平台内容矩阵全自动化实战（OpenAI Whisper + Claude）

内容产量5倍、广告收入翻4倍：播客转多平台内容矩阵全自动化实战（OpenAI Whisper + Claude）本文拆解内容创业者社区真实案例：用AI自动化将单期播客拆解为跨平台内容矩阵，内容产量提升5倍，广告月收入从¥8,000暴涨至¥35,000。从音频转写、内容提炼到多平台草稿生成，手把手教你打造高效内容分发流水线。一、案例背景：内容创作者的效率革命 1.1 核心数据与业务本质一位科技类播客主通过AI自动化内容矩阵系统，实现了内容生产与商业收入的双重飞跃：核心指标优化前优化后提升幅度单期内容产量1期播客1套完整内容矩阵（6类内容）+500%周更新频率1次/周5次/周+400%月广告收入¥8,000¥35,000+337.5%内容生产耗时8小时/期1小时/期-87.5%平台覆盖仅播客播客+公众号+小红书+微博+LinkedIn+短视频+500%

Stable Diffusion v1-5-pruned.safetensors本地部署指南

Stable Diffusion v1-5-pruned.safetensors 本地部署与 LoRA 微调实战指南在消费级 GPU 上跑通一个 AI 图像生成模型，曾经是件门槛极高的事。动辄几十 GB 的显存占用、复杂的环境配置、晦涩的训练脚本……这些都曾让许多创作者望而却步。但如今，随着 .safetensors 格式的普及和 LoRA 技术的成熟，我们已经可以在一张 RTX 3090 上，用不到 10GB 显存完成一次完整的风格微调。这一切的核心起点，正是 Stable Diffusion v1-5-pruned.safetensors —— 这个名字看似冗长，实则浓缩了当前本地 AIGC 实践中最关键的技术组合：轻量化基础模型 + 安全权重格式 + 高效微调机制。为什么选择 v1-5-pruned.safetensors？当你打开 Hugging