llama.cpp重大更新:自带Web UI,性能超越Ollama,本地大模型部署新选择!

llama.cpp重大更新:自带Web UI,性能超越Ollama,本地大模型部署新选择!

Ollama 背后执行推理的核心技术其实是由 llama.cpp 承担的,GGUF 模型格式也是由 llama.cpp 的作者所开发。

现在 llama.cpp 迎来重大更新,它也有了自己的 Web UI,我测试了安装部署和自行打包,很多地方确实比 Ollama 还有方便好用。

官方介绍,优势如下:

  • 完全免费、开源且由社区驱动
  • 在所有硬件上表现出色
  • 高级上下文和前缀缓存
  • 并行和远程用户支持
  • 极其轻量级且内存高效
  • 充满活力且富有创造力的社区
  • 100% 隐私

使用之前需要先安装 llama.cpp server

我还是喜欢命令行直接安装

## Winget (Windows)winget install llama.cpp## Homebrew (Mac and Linux)brew install llama.cpp 

然后启动 UI,也是命令行,为了快速测试,我调用 Qwen2.5 的 0.5b

llama-server -hf Qwen/Qwen2.5-0.5B-Instruct-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033 

量化后模型文件来到不到 500Mb,我发现它默认选 q4_k_m

然后浏览器打开

随便问个问题,速度 97t/s

对比 Ollama 82t/s的样子

其他功能也都挺实用

从磁盘或剪贴板添加多个文本文件到对话的上下文中

将一个或多个 PDF 附件添加到对话中。默认情况下,PDF 的内容将被转换为纯文本,不包括任何视觉元素。

也可以在 AI 模型支持的情况下将 PDF 处理为图像。

当所选的 AI 模型具有视觉输入能力时,可以在对话中插入图片:

图片可以与文本上下文一起插入:

可以渲染数学表达式:

使用 Import/Export 选项直接管理私人对话:

新的 WebUI 对移动设备友好:

其他功能还有,比如:

  • 支持通过 URL 参数传递输入
  • 根据之前的讨论点编辑或重新生成消息以创建分支
  • 同时运行多个聊天对话
  • 并行图像处理
  • 支持嵌入式渲染生成的 HTML/JS 代码
  • 指定一个自定义的 JSON 模式以约束生成的输出到特定格式

目前硬伤是只能浏览器,想打包成 app 也可以,我使用的是 tw93 开发的 pake,一行命令即可,本地服务也可以打包成 app

然后它就将只能浏览器访问的 web 应用打包成 app 了

如此轻量舒服的应用,我与这位网友有相同的期待——支持其他模型的接入

总结来看,比之前想要挑战 ollama 的 Shimmy 要好很多,但是 Ollama 玩了这么久也不是吃素的 1、Ollama 有更加方便的 app,随时切换本地模型甚是方便 2、Ollama 还有免费云模型可以调用呢,deepseek-v3.1:671b-cloud都敢给 3、网络问题,它目前只能支持 HF 下载模型,国内用户不友好 4、网络搜索和 MCP 也不支持

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

在这里插入图片描述


02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述


在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述


在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述
在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述


在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

在这里插入图片描述


如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Read more

CH347使用笔记:CH347作为FPGA下载器的几种方式

CH347使用笔记:CH347作为FPGA下载器的几种方式

CH347简介 CH347是一款高速USB总线转接芯片,通过USB总线提供异步串口、I2C同步串行接口、SPI同步串行接口和JTAG接口等。JTAG接口最高支持60Mhz。 详细介绍: CH347-高速USB转串口、JTAG/SWD、SPI、I2C芯片介绍 CH347下载FPGA程序的三种方式 使用OpenOCD OpenOCD(Open On-Chip Debugger)作为开源的硬件调试器,除了可以对嵌入式芯片进行下载和调试,其实还支持一些型号的FPGA下载。 在OpenOCD目录中的share\openocd\scrips目录中可以看到支持的FPGA型号。 具体使用可参考 CH347应用–USB TO JTAG进行FPGA调试下载 2. 使用OpenFPGALoader 类似于成熟的openOCD项目,openFPGALoader主要专注于对FPGA的固件下载,支持Xilinx, Altera/Intel, Lattice, Gowin等常见FPGA。 项目链接:https://github.com/ZhiyuanYuanNJ/openFPG

【读点论文】Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot MD and SNE坐标系变换

【读点论文】Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot MD and SNE坐标系变换

Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation Abstract * Metric3D v2是一个几何基础模型,用于从一幅图像中进行零样本深度和表面法线估计,这对度量3D恢复至关重要。虽然深度和法线在几何上是相关的,并且高度互补,但它们存在不同的挑战。最先进的(SoTA)单目深度方法通过学习仿射不变深度来实现零样本泛化,同时,由于缺乏大规模标记数据,SoTA法线估计方法的零样本性能有限。为了解决这些问题,我们提出了度量深度估计和表面法线估计的解决方案。对于度量深度估计,我们指出,零样本单视图模型的关键在于解决各种相机模型和大规模数据训练的度量模糊性。我们提出了一个规范的相机空间转换模块,它明确地解决了模糊性问题,可以毫不费力地插入到现有的单目模型中。 * 对于表面法向估计,我们提出了一个联合深度-法向优化模块,从度量深度中提取多样化的数据知识,使法向估计器能够超越法向标签进行学习。配备了这

一文讲清楚RAG 四大模式:Naive RAG、Advanced RAG、Modular RAG 与 Agentic RAG

一文讲清楚RAG 四大模式:Naive RAG、Advanced RAG、Modular RAG 与 Agentic RAG

随着技术迭代,RAG 已从最初的简单架构发展出多种进阶形态。本文将系统解析 RAG 的四大主流模式 ——Naive RAG、Advanced RAG、Modular RAG 与 Agentic RAG,从工作原理、技术特点到适用场景进行全方位对比,为技术选型提供参考。 一、RAG 基础:检索增强生成的核心逻辑 在深入模式解析前,需先明确 RAG 的核心逻辑。简单来说,RAG 由检索(Retrieval) 与生成(Generation) 两大模块构成: 检索模块:从预设知识库中精准定位与用户问题相关的信息片段(如文档、段落、句子); 生成模块:基于检索到的信息,结合大语言模型生成符合上下文、逻辑连贯的答案。 这种 “先检索再生成” 的模式,既保留了 LLM 的语言理解与生成能力,又通过外部知识的引入弥补了模型训练数据过时、事实准确性不足的缺陷。

机器人坐标系详解

机器人坐标系详解

笔者虽然从事自动化工作十几年,但是对于机器人坐标系的理解始终是一知半解,最近认为吃透了坐标系的事,和广大同仁分享一下。 工业机器人的坐标系的五个坐标系:1、世界坐标系;2、机器人足部坐标系;3、基坐标系;4、法兰坐标系;5、工具坐标系 这五个坐标系是工业机器人空间位置和姿态的数学基础。可以把它们想象成一套从宏观到微观的定位系统。 为了让你更直观地理解,可以把整个机器人工作站想象成一个房间,把机器人想象成人的手臂。以下是详细的解释: 1. 世界坐标系 —— 房间的地标 * 定义:这是一个固定不变的绝对坐标系,通常定义在整个工作站(房间)的某个角落。 * 用途:用来描述房间里所有东西的绝对位置。比如:机器人站在哪里、传送带放在哪里、工件放在哪里,都是相对于世界坐标系的。 * 理解:它相当于你房间里的经纬度或者墙角。无论你怎么移动,这个点的位置是固定不变的。 2. 机器人足部坐标系 —— 机器人脚下的地 * 定义:这是一个位于机器人安装底座正下方的坐标系。通常Z轴垂直向上,指向机器人的身体。 * 用途:在安装机器人时,我们需要把机器人足部坐标系校准到世界坐标系中去。