llama.cpp重大更新：自带Web UI，性能超越Ollama，本地大模型部署新选择！

优质文章学习记录

11 Apr 2026 — 8 min read

Ollama 背后执行推理的核心技术其实是由 llama.cpp 承担的，GGUF 模型格式也是由 llama.cpp 的作者所开发。

现在 llama.cpp 迎来重大更新，它也有了自己的 Web UI，我测试了安装部署和自行打包，很多地方确实比 Ollama 还有方便好用。

官方介绍，优势如下：

完全免费、开源且由社区驱动
在所有硬件上表现出色
高级上下文和前缀缓存
并行和远程用户支持
极其轻量级且内存高效
充满活力且富有创造力的社区
100% 隐私

使用之前需要先安装 llama.cpp server

我还是喜欢命令行直接安装

## Winget (Windows)winget install llama.cpp## Homebrew (Mac and Linux)brew install llama.cpp

然后启动 UI，也是命令行，为了快速测试，我调用 Qwen2.5 的 0.5b

llama-server -hf Qwen/Qwen2.5-0.5B-Instruct-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033

量化后模型文件来到不到 500Mb，我发现它默认选 q4_k_m

然后浏览器打开

随便问个问题，速度 97t/s

对比 Ollama 82t/s的样子

其他功能也都挺实用

从磁盘或剪贴板添加多个文本文件到对话的上下文中

将一个或多个 PDF 附件添加到对话中。默认情况下，PDF 的内容将被转换为纯文本，不包括任何视觉元素。

也可以在 AI 模型支持的情况下将 PDF 处理为图像。

当所选的 AI 模型具有视觉输入能力时，可以在对话中插入图片：

图片可以与文本上下文一起插入：

可以渲染数学表达式：

使用 Import/Export 选项直接管理私人对话：

新的 WebUI 对移动设备友好：

其他功能还有，比如：

支持通过 URL 参数传递输入
根据之前的讨论点编辑或重新生成消息以创建分支
同时运行多个聊天对话
并行图像处理
支持嵌入式渲染生成的 HTML/JS 代码
指定一个自定义的 JSON 模式以约束生成的输出到特定格式

目前硬伤是只能浏览器，想打包成 app 也可以，我使用的是 tw93 开发的 pake，一行命令即可，本地服务也可以打包成 app

然后它就将只能浏览器访问的 web 应用打包成 app 了

如此轻量舒服的应用，我与这位网友有相同的期待——支持其他模型的接入

总结来看，比之前想要挑战 ollama 的 Shimmy 要好很多，但是 Ollama 玩了这么久也不是吃素的 1、Ollama 有更加方便的 app，随时切换本地模型甚是方便 2、Ollama 还有免费云模型可以调用呢，deepseek-v3.1:671b-cloud都敢给 3、网络问题，它目前只能支持 HF 下载模型，国内用户不友好 4、网络搜索和 MCP 也不支持

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

AI的提示词专栏：写作助手 Prompt，从提纲到完整文章

AI的提示词专栏：写作助手 Prompt，从提纲到完整文章本文围绕写作助手 Prompt 展开，阐述其核心价值在于降低写作门槛、提升效率与保证内容质量，介绍其 “指令目标、背景信息、输出约束、示例引导” 的基础结构。文章详细拆解从提纲生成到全文创作再到优化的三步流程，每步均提供含指令目标、背景信息、输出约束的 Prompt 示例，搭配预期输出与技巧分析，同时针对短篇文案、学术文章等不同场景给出 Prompt 调整策略，还解答了模型生成提纲偏离主题、内容缺乏论据、风格不统一等常见问题，最后总结核心要点并提出多轮迭代优化、结合工具使用等扩展建议，为高效生成符合需求的内容提供全面指导。人工智能专栏介绍人工智能学习合集专栏是 AI 学习者的实用工具。它像一个全面的 AI 知识库，把提示词设计、AI 创作、智能绘图等多个细分领域的知识整合起来。无论你是刚接触 AI 的新手，还是有一定基础想提升的人，都能在这里找到合适的内容。从最基础的工具操作方法，到背后深层的技术原理，

openJiuwen集成蓝耘AI模型深度解析：从架构设计到企业级Agent实战部署

前言在人工智能技术从单纯的感知智能向认知智能演进的浪潮中，大语言模型（LLM）的成熟催生了AI Agent（人工智能体）这一全新的应用形态。AI Agent不再局限于传统的单指令执行，而是演进为具备自主感知、推理规划、决策执行能力的智能实体。在这一技术变革背景下，openJiuwen作为一个致力于提供灵活、强大且易用能力的开源Agent平台应运而生。本文将深度剖析openJiuwen的技术架构、核心优势，并基于真实的服务器部署环境，详细拆解从底层环境搭建到上层复杂智能体构建的全过程。一、 Agentic AI时代的基础设施：openJiuwen概览 openJiuwen的定位不仅是一个开发工具，而是面向生产级应用的Agent全生命周期管理平台。它旨在解决当前大模型应用落地过程中面临的开发门槛高、协同调度难、运行稳定性差等痛点。通过提供标准化的开发框架与高可靠的运行引擎，openJiuwen支持开发者快速构建能够处理各类简单或复杂任务的AI Agent，并实现多Agent间的协同交互。作为核心代码资产的入口，开发者能在这里查看项目的 Readme 文档、分支管理和最新提交

【博客之星2025年度总评选】2025年度技术博客总结：从Python基础到AI前沿的进阶之旅

本文目录一、个人成长与突破盘点 1.1 技术深度与广度的双重突破 1.2 问题解决能力的显著提升 1.3 技术视野的前瞻性拓展二、年度创作历程回顾 2.1 从基础到高级的系统化梳理 2.2 内容质量的持续提升三、个人生活与博客事业的融合与平衡四、结语 2025年对于我而言，是技术深耕与突破的关键一年。作为一位专注于Python技术栈的开发者，在这一年中不仅实现了个人技术能力的飞跃，更通过高质量的博客内容为众多开发者提供了实用的技术指南。以下是对2025年度博客创作的全面总结。一、个人成长与突破盘点 1.1 技术深度与广度的双重突破 2025年的技术探索从Python基础逐步深入到高级应用与前沿领域。年初，专注于Python核心模块的深度解析，如random、math、operator等模块的高级用法，展现了扎实的Python基础功底。随着年份推进和技术视野不断拓展，逐步覆盖了AI绘画、OpenAI API集成、Gemini 3.0等前沿技术领域。特别值得一提的是，

awesome-design-md：AI 设计系统实战

👋 大家好，我是你们的老朋友，一名专注于前端工程化与 AI 辅助开发的技术博主。在当前的开发浪潮中，我们正经历着从“手写代码”到“提示词工程”的范式转移。然而，许多开发者在使用 AI 生成 UI 时，常常面临一个痛点：生成的界面风格杂乱，无法复现成熟产品的设计质感。设计稿与代码之间的鸿沟，依然阻碍着效率的进一步提升。 📌 本文适合谁读： * 希望利用 AI 加速前端开发的全栈工程师 * 苦恼于设计系统落地难的设计师与开发者 * 对 Design Token 与 AI 上下文工程感兴趣的技术人员为了彻底摸清如何利用标准化文档赋能 AI 编码，我耗时 3 天深度研究了 awesome-design-md 项目，并在两个实际落地页项目中进行了验证。本文不仅是对项目的介绍，更是一份经过实战检验的集成指南，承诺带你掌握让 AI 代理读懂设计系统的核心方法。核心原理与架构解析 awesome-design-md 并非传统的