text-generateion-webui模型加载器(Model Loaders)选项

不同加载器的本质是不同的模型运行后端/适配层,它们各自针对特定的模型格式或推理后端进行优化,对应不同的模型量化格式、优化技术和硬件适配方案,核心目的是让WebUI能正确加载并运行各种格式的LLM模型。

1. Transformers
  • 核心定义:基于Hugging Face Transformers库的原生加载器,是最基础、兼容性最广的加载方式。
  • 适配模型:未量化的原生HF格式模型(如.bin/.safetensors格式的Llama-2、Mistral、ChatGLM等),也支持8bit/4bit的BitsAndBytes量化模型。
  • 特点
    • 无需额外量化处理,直接加载原始模型;
    • 兼容性最强,但显存占用最高(无量化优化);
    • 支持几乎所有HF生态的模型架构(LLaMA、GPT-2、BERT等)。
  • 适用场景:有充足显存(如NVIDIA RTX 3090/4090以上),追求模型完整精度,或测试新发布的未量化模型。微调、验证训练效果
2. ExLlamav2
  • 核心定义:基于ExLlamaV2库的高性能加载器,专为LLaMA系列模型优化的EXL2量化格式设计(ExLlamaV2是ExLlama的升级版)
    • ExLlamav2:纯ExLlamaV2原生加载,仅支持EXL2(.safetensors)格式模型,速度最快;
  • 适配模型:EXL2量化格式的模型(文件名通常含exl2),如Llama-2-7B-exl2、Mistral-7B-exl2。
  • 特点
    • 显存占用极低(支持2-6bit自定义量化精度),生成速度极快;极快的推理速度(比 Transformers + GPTQ 快数倍)。
    • 仅适配NVIDIA GPU(依赖CUDA),不支持CPU/AMD;
    • 对LLaMA系模型优化极致,是目前NVIDIA GPU下性价比最高的加载器之一。
  • 适用场景:NVIDIA GPU用户,追求极致的速度和显存效率,主要使用LLaMA/Mistral系列模型。
3. ExLlamav2_HF
  • 核心定义:在 ExLlamaV2 引擎基础上,模拟 Hugging Face Transformers 的接口
    • ExLlamav2_HF:兼容HF格式封装的EXL2模型,适配性更好但性能略低于原生版。
    • 让依赖 HF 接口的插件(如某些 RAG、LoRA 插件)能与 ExLlamaV2 后端兼容。
  • 适配模型:EXL2量化格式的模型(文件名通常含exl2),如Llama-2-7B-exl2、Mistral-7B-exl2。
  • 特点
    • 接近原生 ExLlamaV2,但增加一层封装。。
  • 适用场景:如果你用到需要 transformers API 的功能(比如某些扩展),但又想用 ExLlamaV2 的速度,就选这个。
4. AutoGPTQ
  • 来源:Hugging Face 官方支持的 auto-gptq 库。
  • 核心定义:基于AutoGPTQ库的加载器,适配GPTQ量化格式的模型。
  • 适配模型:GPTQ量化格式的模型(文件名通常含gptq)(.safetensors),如Llama-2-13B-GPTQ、Qwen-7B-GPTQ。
  • 特点
    • 支持4/6/8bit量化,显存占用远低于原生Transformers;比原生 Transformers 能加载 GPTQ 模型,但速度慢于 ExLlamaV2
    • 兼容性较好,支持更多 GPTQ 变种。
    • 兼容NVIDIA GPU(主流),部分支持AMD GPU(ROCm);
    • 支持--wbits/--groupsize等参数微调量化精度,平衡速度和效果。
  • 适用场景:NVIDIA/AMD GPU用户,使用GPTQ格式模型,兼顾兼容性和性能。
5. llama.cpp & llamacpp_HF
  • 核心定义:基于llama.cpp库的加载器,适配GGUF量化格式(llama.cpp的新一代格式,替代旧的GGML)。纯 C/C++ 实现,CPU 优先,也支持 GPU 加速(通过 cuBLAS 或 Metal)。
  • 纯llama.cpp原生加载,仅支持GGUF格式,适配性最纯粹;
  • 适配模型:GGUF量化格式的模型(文件名通常含gguf),如Llama-2-7B-Q4_K_M.gguf、Phi-2-Q5_K_V.gguf。
  • 特点
    • 跨平台性极强:支持CPU、NVIDIA GPU、AMD GPU、Apple Silicon(M系列芯片);
    • 显存/内存占用低,是纯CPU运行LLM的最佳选择;
    • 支持多种量化精度(Q2_K、Q4_K_M、Q5_K_V等),可按需选择;
    • 生成速度:GPU加速下略慢于ExLlamav2/AutoGPTQ,但CPU下远快于其他加载器。
  • 适用场景:无高端NVIDIA GPU的用户(如CPU、AMD、Mac),或需要跨平台运行模型。
6. lllamacpp_HF
  • 核心定义:在 llama.cpp(GGUF 模型)基础上,包装成 Hugging Face Transformers 风格的接口
  • llamacpp_HF:兼容HF格式封装的GGUF模型,可复用HF的部分生态(如tokenizer)。
  • 适配模型:GGUF量化格式的模型(文件名通常含gguf),如Llama-2-7B-Q4_K_M.gguf、Phi-2-Q5_K_V.gguf。
  • 特点
    • 与 llama.cpp 相同,但增加了接口转换开销。
  • 适用场景:当你用 GGUF 模型,但某些插件要求“像 HF 模型一样工作”时使用。
7. AutoAWQ
  • 核心定义:基于AutoAWQ库的加载器,适配AWQ量化格式的模型。
  • 适配模型:AWQ量化格式的模型(文件名通常含awq),如Llama-2-7B-AWQ、Yi-34B-AWQ。
  • 特点
    • AWQ 是一种更高质量的 4-bit 量化方法(相比 GPTQ,在相同 bit 下通常保留更多性能)。
    • 量化效率高(4bit为主),速度和显存占用接近GPTQ,部分场景下效果更优;
    • 主要支持NVIDIA GPU,对新架构(如Ada Lovelace)优化较好;
    • 兼容性略低于GPTQ,支持的模型架构相对少一些。
  • 适用场景:NVIDIA GPU用户,使用AWQ格式模型,追求比GPTQ更优的量化效果。追求高质量 4-bit 推理,且有兼容 AWQ 的模型(如 Mistral-7B-AWQ、Llama-3-8B-AWQ 等)。
7. ExLlamaV3
  • 核心定义: 是 turboderp 开发的 ExLlama 系列的最新版本(继 V1/V2 之后),专为 GPTQ 量化模型设计。在保持 ExLlamaV2 极速推理的基础上,进一步优化显存使用、支持更大上下文、提升兼容性与易用性
  • 适配模型:AWQ量化格式的模型(文件名通常含awq),如Llama-2-7B-AWQ、Yi-34B-AWQ。
  • 特点
    • 更快的推理速度:相比 V2,内核进一步优化,尤其在 batch 推理和长上下文场景下更高效。
    • 更低的显存占用:通过更精细的内存管理,可在相同显存下运行更大模型或更长序列。
    • 原生支持 RoPE 缩放(如 YaRN、Dynamic NTK),便于扩展上下文(如 32K+)。
    • 更好的 GPTQ 模型兼容性:支持更多变种的 GPTQ 配置(如不同 group size、act-order 等)。
    • 仍仅支持 NVIDIA GPU(CUDA + cuBLAS)。
    • 仍在积极开发中,可能不如 V2 稳定(截至 2026 年初)。
  • 适用场景
    • 你有 NVIDIA GPU(如 RTX 30/40 系列)。
    • 使用 GPTQ 量化模型(如 TheBloke/Llama-2-7B-GPTQ)。
    • 追求极致推理速度与低显存占用
8. ExLlamaV3_HF
  • 核心定义
    • 这是 ExLlamaV3 的 Hugging Face 兼容封装层
    • 它让 ExLlamaV3 引擎对外暴露一个类似 transformers 的 API 接口(例如 model.generate()tokenizer 等)。
  • 很多 text-generation-webui 的插件(如 LoRA、RAG、Agent 工具调用)是基于 Hugging Face transformers 库开发的。
  • 如果直接用原生 ExLlamaV3,这些插件可能无法工作。
  • ExLlamaV3_HF = ExLlamaV3 的性能 + Transformers 的接口兼容性
  • 特点
  • 速度略低于原生 ExLlamaV3(因有封装开销),但远快于 AutoGPTQ 或 Transformers。
  • 插件兼容性显著提升。
🔹 使用建议
  • 当你需要 ExLlamaV3 的速度 + 插件功能(如加载 LoRA 适配器)时,选择此项。
9.TensorRT-LLM
  • 核心定义
    • NVIDIA 官方开发的 LLM 推理优化框架,基于 TensorRT(NVIDIA 的高性能推理 SDK)。
    • 目标:在 NVIDIA GPU 上实现业界领先的吞吐量与延迟表现,尤其适合生产部署
  • 特点
    • 极致性能:通过图优化、内核融合、量化感知训练(QAT)等技术,比 PyTorch 快数倍。
    • 支持 FP8 / INT8 / INT4 量化(需模型经过 TRT-LLM 专用流程转换)。
    • 支持 连续批处理(Continuous Batching)、多 GPU 推理张量并行
    • 官方支持主流模型:Llama, Mistral, Gemma, Qwen, ChatGLM 等。
    • 使用门槛高
      • 模型需先通过 TRT-LLM 构建引擎(build engine),过程复杂且耗时。
      • 需要熟悉 Python/C++ API 或使用 NVIDIA 提供的脚本。
      • 对 CUDA/cuDNN/TensorRT 版本有严格要求。
    • 仅限 NVIDIA 数据中心级 GPU(如 A100, H100)效果最佳,消费卡(如 RTX 4090)也能用但收益有限。
    • 通常通过 tensorrt-llm 加载器集成(需手动安装 TRT-LLM 及其依赖)。
    • 一旦构建好 .engine 文件,加载速度极快,推理延迟极低。
    • 适合高并发、低延迟的本地服务部署
  • 特点
    • 你有 高端 NVIDIA GPU(如 A100/H100/RTX 6000 Ada)。
    • 需要最大化吞吐量(如 API 服务、批量生成)。
    • 愿意花时间转换模型为 TRT-LLM 引擎格式

加载器选择速查表

加载器适配格式核心优势适用硬件推荐优先级(新手)
Transformers原生HF兼容性最广,无量化限制全平台(显存要求高)★★★☆☆
ExLlamav2/ExLlamav2_HFEXL2速度最快,显存占用最低NVIDIA GPU★★★★★(NVIDIA用户)
AutoGPTQGPTQ兼容性好,平衡速度/显存NVIDIA/AMD GPU★★★★☆
llama.cpp/llamacpp_HFGGUF跨平台,CPU运行最佳全平台(CPU/AMD/Mac)★★★★☆(非NVIDIA用户)
AutoAWQAWQ量化效果优NVIDIA GPU★★★☆☆
加载器适用模型格式硬件要求速度显存效率易用性插件兼容性
ExLlamaV3GPTQ (.safetensors)NVIDIA GPU⚡⚡⚡⚡⚡⭐⭐⭐⭐⭐⭐⭐⭐❌(原生)
ExLlamaV3_HFGPTQ (.safetensors)NVIDIA GPU⚡⚡⚡⚡⭐⭐⭐⭐⭐⭐⭐✅(HF 风格)
TensorRT-LLMTRT-LLM 引擎 (.engine)NVIDIA GPU(推荐数据中心卡)⚡⚡⚡⚡⚡+⭐⭐⭐⭐⭐(复杂)有限

Read more

腾讯三箭齐发!企业微信、WorkBuddy、Qclaw 共建AI办公新生态

腾讯三箭齐发!企业微信、WorkBuddy、Qclaw 共建AI办公新生态

腾讯三箭齐发!企业微信、WorkBuddy、Qclaw 共建AI办公新生态 📢 重磅消息! 2026年3月,腾讯在AI Agent领域连出重拳!3月8日:企业微信宣布接入OpenClaw3月9日:腾讯正式上线 WorkBuddy(桌面智能体)3月9日:腾讯电脑管家推出 Qclaw(微信AI助手) 三箭齐发!腾讯全面布局AI办公生态! 🔥 事件回顾 Day 1:企业微信宣布接入 OpenClaw 2026年3月8日,企业微信官方宣布支持接入OpenClaw智能机器人! Day 2:腾讯 WorkBuddy 正式上线 2026年3月9日,腾讯旗下全场景AI智能体WorkBuddy正式发布,完全兼容OpenClaw生态! 同期:腾讯电脑管家 Qclaw 亮相 腾讯电脑管家官方推出Qclaw——一款"随时随地,微信一下,帮你搞定一切"的AI助手! 🤖 腾讯AI三剑客对比 产品定位入口特点企业微信版OpenClaw接入企业微信企业级应用WorkBuddy桌面智能体工作台桌面客户端深度办公自动化Qclaw微信AI助手微信/电脑管家轻量级、

海光 DUC 环境(海光 DCU K100_AI)部署 ollama+deepseek

看到 ZEEKLOG 上好多的这个部署流程不是要收费就是写的不清不楚,所以决定将我的部署流程写出来,明明所有的官方文档都是免费的。 “不太懂为什么吃了别人免费的饭,现在拉出来的屎要收费!” 声明:本人不是专业运维实施人员,所有的流程都是靠试或直觉,还有一点点的知识 正式开始: 系统:Kylin Linux Advanced Server V10(Lance) CPU:海光 C86 7360(24 核) 内存:256GB 内核:Linux-4.19.90-52.48.v2207.ky10.x86_64 显卡:海光 DCU K100_AI(Co-processor) 1. 环境部署 1.1 驱动安装 光合开发者社区下载驱动 通过显卡型号选择驱动 驱动版本

Java LLM开发框架全面解析:从Spring AI到Agents-Flex

Java LLM开发框架全面解析:从Spring AI到Agents-Flex

🧑 博主简介:ZEEKLOG博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c=1000,移动端可关注公众号 “ 心海云图 ” 微信小程序搜索“历代文学”)总架构师,16年工作经验,精通Java编程,高并发设计,分布式系统架构设计,Springboot和微服务,熟悉Linux,ESXI虚拟化以及云原生Docker和K8s,热衷于探索科技的边界,并将理论知识转化为实际应用。保持对新技术的好奇心,乐于分享所学,希望通过我的实践经历和见解,启发他人的创新思维。在这里,我希望能与志同道合的朋友交流探讨,共同进步,一起在技术的世界里不断学习成长。 🤝商务合作:请搜索或扫码关注微信公众号 “ 心海云图 ” Java LLM开发框架全面解析:从Spring AI到Agents-Flex 在人工智能席卷全球的今天,Java开发者无需转向Python生态,也能充分利用大语言模型的强大能力,这得益于日益成熟的Java LLM开发框架。 近年来,随着大语言模型(LLM)技术的迅猛发展,AI能力已成为现代应用开发不可或缺的部分。作为企业

人工智能:多模态大模型原理与跨模态应用实战

人工智能:多模态大模型原理与跨模态应用实战

人工智能:多模态大模型原理与跨模态应用实战 1.1 本章学习目标与重点 💡 学习目标:掌握多模态大模型的核心原理、跨模态特征融合方法,以及基于多模态模型的图文生成与理解任务实战流程。 💡 学习重点:理解多模态模型的架构设计,学会使用 Hugging Face 生态工具调用 CLIP 与 BLIP-2 模型,完成图文检索与图像描述生成任务。 1.2 多模态大模型的核心概念与发展背景 1.2.1 什么是多模态大模型 💡 多模态大模型是指能够同时处理文本、图像、音频、视频等多种不同类型数据的人工智能模型。它打破了传统单模态模型的信息壁垒,实现了跨模态的理解与生成。 多模态大模型的核心能力体现在两个方面: * 跨模态理解:实现不同模态数据之间的关联分析,例如根据文本描述查找对应图像、根据图像内容生成文字摘要。 * 跨模态生成:以一种模态数据为输入,生成另一种模态的数据,例如文本生成图像、图像生成文本、语音生成视频等。 与单模态大模型相比,多模态大模型更贴近人类的认知方式。人类在认识世界的过程中,本身就是通过视觉、听觉、语言等多种感官渠道接收和处理信息的。