llama.cpp重大更新：自带Web UI，性能超越Ollama，本地大模型部署新选择！

优质文章学习记录

07 Apr 2026 — 8 min read

Ollama 背后执行推理的核心技术其实是由 llama.cpp 承担的，GGUF 模型格式也是由 llama.cpp 的作者所开发。

现在 llama.cpp 迎来重大更新，它也有了自己的 Web UI，我测试了安装部署和自行打包，很多地方确实比 Ollama 还有方便好用。

官方介绍，优势如下：

完全免费、开源且由社区驱动
在所有硬件上表现出色
高级上下文和前缀缓存
并行和远程用户支持
极其轻量级且内存高效
充满活力且富有创造力的社区
100% 隐私

使用之前需要先安装 llama.cpp server

我还是喜欢命令行直接安装

## Winget (Windows)winget install llama.cpp## Homebrew (Mac and Linux)brew install llama.cpp

然后启动 UI，也是命令行，为了快速测试，我调用 Qwen2.5 的 0.5b

llama-server -hf Qwen/Qwen2.5-0.5B-Instruct-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033

量化后模型文件来到不到 500Mb，我发现它默认选 q4_k_m

然后浏览器打开

随便问个问题，速度 97t/s

对比 Ollama 82t/s的样子

其他功能也都挺实用

从磁盘或剪贴板添加多个文本文件到对话的上下文中

将一个或多个 PDF 附件添加到对话中。默认情况下，PDF 的内容将被转换为纯文本，不包括任何视觉元素。

也可以在 AI 模型支持的情况下将 PDF 处理为图像。

当所选的 AI 模型具有视觉输入能力时，可以在对话中插入图片：

图片可以与文本上下文一起插入：

可以渲染数学表达式：

使用 Import/Export 选项直接管理私人对话：

新的 WebUI 对移动设备友好：

其他功能还有，比如：

支持通过 URL 参数传递输入
根据之前的讨论点编辑或重新生成消息以创建分支
同时运行多个聊天对话
并行图像处理
支持嵌入式渲染生成的 HTML/JS 代码
指定一个自定义的 JSON 模式以约束生成的输出到特定格式

目前硬伤是只能浏览器，想打包成 app 也可以，我使用的是 tw93 开发的 pake，一行命令即可，本地服务也可以打包成 app

然后它就将只能浏览器访问的 web 应用打包成 app 了

如此轻量舒服的应用，我与这位网友有相同的期待——支持其他模型的接入

总结来看，比之前想要挑战 ollama 的 Shimmy 要好很多，但是 Ollama 玩了这么久也不是吃素的 1、Ollama 有更加方便的 app，随时切换本地模型甚是方便 2、Ollama 还有免费云模型可以调用呢，deepseek-v3.1:671b-cloud都敢给 3、网络问题，它目前只能支持 HF 下载模型，国内用户不友好 4、网络搜索和 MCP 也不支持

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

【记录】Copilot｜Github Copilot重新学生认证通过方法（2025年7月，包括2FA和认证材料、Why are you not on campus）

文章目录 * 前言 * 步骤 * 最重要的一步前言事实上，Github Copilot马上就要开源了，我原本的认证过期了。但是在我体验了众多的代码补全工具实在是太难用了之后，我觉得一天也等不了了，就去再一次认证了学生认证。这次严格了很多，要求巨无敌多，这里写一下新认证要干的事情。一口气认证了八次的含金量谁懂，把要踩的坑全踩完了。。步骤（如果你是第一次认证还要额外添加一下自己的学校邮箱，这里我就略过不提了）在所有的步骤之前，最好确保你的本人就在学校或者在学校附近。当你出现了报错You appear not to be near any campus location for the school you have selected.时，会非常难通过。而其他的报错可以按我下文这种方式通过。（对于部分学校，比如华科大）双重认证Two-factor authentication要打开：跳转这个网站https://github.com/settings/security，然后点下一步开启认证，

展望 AIGC 前景：通义万相 2.1 与蓝耘智算平台共筑 AI 生产力高地

引言在 AI 视频生成领域不断创新突破的当下，通义万相 2.1这款开源的视频生成 AI 模型一经发布便引发了广泛关注。其表现十分亮眼，发布当日便强势登顶VBench排行榜，将Sora、Runway等行业内的知名强大对手甩在身后，彰显出不容小觑的强劲实力与巨大潜力。通义万相 2.1模型具备诸多令人赞叹的特性。它所生成的视频分辨率达到了1080P，并且在视频时长方面没有任何限制。更为厉害的是，它能够精准地模拟自然动作，甚至还可以对物理规律进行高度还原，这些卓越的能力无疑为 AIGC 领域带来了前所未有的变革，堪称具有里程碑意义的重大突破。借助蓝耘智算平台，用户可以便捷地对通义万相 2.1 模型进行部署，进而打造出属于自己的个性化 AI 视频生成工具。今天，我会带领大家深入了解通义万相 2.1的各项强大功能，同时也会详细分享怎样通过蓝耘智算平台快速上手，开启 AI 视频生成的奇妙之旅。蓝耘智算平台：开启高性能计算新时代 1. 平台概览蓝耘智算平台作为专为满足高性能计算需求精心打造的云计算平台，以强大计算力和灵活服务能力脱颖而出。其依托先进的基础设施，配备大规模GPU算力

【优质开源项目】AIGC开源推荐-全球情报监控平台worldmonitor

1.概述 World Monitor 是一个开源的实时情报/监测仪表盘，聚合多类数据源（新闻、地理/卫星、航运/空中、财经、威胁情报等），提供交互式地理视图、AI 摘要、事件聚合与报警，支持 Web / PWA / Tauri 桌面三种运行方式，并可通过变体（WORLD / TECH / FINANCE）切换功能集。 2. 总体技术架构（分层视角）客户端层（Browser / PWA / Tauri desktop） * • React + TypeScript + Vite 构建。 * • 地图/可视化：deck.gl（WebGL 3D globe）、MapLibre GL、D3

EtherCAT同步模式实战：如何用TwinCAT配置DC-Synchronous模式（附时序图详解）

EtherCAT同步模式实战：TwinCAT配置DC-Synchronous模式全解析工业自动化领域对运动控制的同步精度要求越来越高，EtherCAT作为实时以太网协议的代表，其DC-Synchronous（分布式时钟同步）模式能够实现纳秒级的同步精度。本文将深入探讨如何在TwinCAT环境中配置这一关键模式，帮助工程师解决实际项目中的同步挑战。 1. DC-Synchronous模式基础原理 EtherCAT的DC-Synchronous模式核心在于利用分布时钟(Distributed Clock)技术，使网络中的所有从站设备共享一个统一的系统时间基准。与传统的SM-Synchronous模式相比，DC模式最大的优势在于： * 消除主站抖动影响：从站动作基于本地时钟而非主站数据帧到达时间 * 补偿传输延迟：通过精确的时间偏移计算，抵消信号在物理线路上的传播差异 * 硬件级同步：使用SYNC信号触发从站IO动作，而非软件中断典型的DC同步网络包含以下关键组件：组件类型作用典型设备参考时钟(Reference Clock)提供系统时间基准第一个DC从站从站时