Unsloth支持哪些模型？Llama/Qwen/Gemma兼容性指南

优质文章学习记录

07 Apr 2026 — 15 min read

Unsloth支持哪些模型？Llama/Qwen/Gemma兼容性指南

1. 开篇：为什么你需要了解Unsloth的模型兼容性？

想用自己的数据训练一个大模型，是不是觉得门槛太高了？显存不够、速度太慢、代码复杂，这些问题让很多人望而却步。今天我要介绍的Unsloth，就是来解决这些痛点的。

简单来说，Unsloth是一个专门为大模型微调设计的开源框架。它的核心价值可以用一句话概括：用更少的资源，更快地训练出更好的模型。官方数据显示，它能将训练速度提升2倍，同时显存占用降低70%。这意味着什么？意味着你可以在消费级显卡上完成原本需要专业卡才能做的训练任务。

但光知道它快还不够，关键是要知道它能训练哪些模型。这就好比你要开车去旅行，首先得知道你的车能开哪些路。Unsloth支持的模型范围，直接决定了你能用它来做什么项目。

在这篇文章里，我会带你全面了解Unsloth支持的模型生态，特别是大家最关心的Llama、Qwen、Gemma这几个主流系列。我会用最直白的方式告诉你：哪些模型能用、怎么用、有什么注意事项。看完之后，你就能清楚地知道，你的项目需求是否能在Unsloth上实现。

2. Unsloth到底支持哪些模型？

2.1 官方支持的核心模型系列

Unsloth的模型支持可以分成两大类：官方直接支持和社区扩展支持。我们先看官方明确支持的，这些是最稳定、文档最全的。

第一梯队：完全兼容的明星模型

这几个是Unsloth的“亲儿子”，支持度最高：

Meta Llama系列：从Llama 2到最新的Llama 3，各种尺寸（7B、13B、70B等）都支持。这是Unsloth支持最完善的系列，也是社区案例最多的。
Google Gemma系列：包括Gemma 2B、7B以及指令微调版本。Google的这个轻量级模型在Unsloth上运行效果很好。
Qwen（通义千问）系列：阿里的Qwen 1.5和Qwen 2系列都支持，特别是Qwen 2.5最近更新很快，Unsloth也能跟上。
DeepSeek系列：国内的DeepSeek模型，包括最新版本，在Unsloth上也有很好的支持。

第二梯队：功能支持但可能需要额外配置

这些模型也能用，但可能在某些高级功能上支持度稍弱：

Mistral系列：Mistral 7B、Mixtral 8x7B等，基本功能都支持。
Phi系列：微软的Phi-2、Phi-3小型模型。
一些代码模型：比如CodeLlama、StarCoder等。

2.2 如何快速查看当前支持的模型？

在实际操作中，你不需要死记硬背这个列表。Unsloth提供了很简单的查看方法。安装好之后，在Python里运行：

import unsloth from unsloth import FastLanguageModel # 查看所有支持的模型架构 print("支持的模型类型：") print(FastLanguageModel.supported_models()) # 查看具体的模型标识符示例 print("\n示例模型名称（可以直接用的格式）：") print("- meta-llama/Llama-2-7b-hf") print("- google/gemma-7b") print("- Qwen/Qwen2.5-7B-Instruct")

运行后会显示当前版本支持的所有模型标识符。这些标识符和Hugging Face上的名称是完全对应的，你找到想用的模型，复制它的HF名称过来就行。

2.3 模型格式要求：什么格式的模型能用？

这里有个重要细节：Unsloth主要支持Hugging Face格式的模型。如果你从别的地方下载的模型，可能需要转换一下格式。

具体来说：

必须是标准的HF格式：包含config.json、model.safetensors或pytorch_model.bin等文件
推荐使用量化版本：特别是GGUF、AWQ、GPTQ这些量化格式，在Unsloth上运行效率更高
注意分词器兼容性：模型的分词器（tokenizer）也需要是HF格式的

如果你不确定自己的模型是不是合适，最简单的办法就是去Hugging Face上找同名的官方版本，那个肯定能用。

3. Llama系列在Unsloth上的实战指南

3.1 从Llama 2到Llama 3：全系列支持情况

Llama系列可以说是Unsloth的“招牌支持”。从我的使用经验来看，无论是哪个版本的Llama，在Unsloth上都能跑得很顺畅。

Llama 2系列：

支持所有尺寸：7B、13B、70B
支持所有变体：基础版、对话版（chat）、代码版（code）
特别适合初次尝试微调的新手，因为社区资源最多

Llama 3系列：

支持8B和70B版本
包括最新的Llama 3.1和3.2
指令微调版本（Instruct）支持度很好

这里有个实用建议：如果你是第一次用Unsloth，建议从Llama 2 7B chat版本开始。这个模型大小适中，微调速度快，而且因为是对话优化版，微调效果容易看出来。

3.2 快速上手：加载和微调Llama模型

我们来看一个具体的例子，用Unsloth加载并微调一个Llama 2模型：

from unsloth import FastLanguageModel import torch # 设置模型参数 model_name = "meta-llama/Llama-2-7b-chat-hf" load_in_4bit = True # 使用4bit量化，大幅减少显存 # 加载模型和分词器 model, tokenizer = FastLanguageModel.from_pretrained( model_name=model_name, max_seq_length=2048, # 根据你的数据调整 dtype=None, # 自动检测 load_in_4bit=load_in_4bit, ) # 打印模型信息看看 print(f"模型加载成功：{model_name}") print(f"参数量：{model.num_parameters():,}") print(f"当前显存占用：{torch.cuda.memory_allocated() / 1024**3:.2f} GB")

这段代码做了几件事：

指定要加载的模型（Llama 2 7B chat版）
启用4bit量化，这是Unsloth的省显存秘诀
设置序列长度（根据你的数据调整）
加载后打印基本信息，确认一切正常

3.3 微调实战：一个完整的例子

模型加载好了，接下来看看怎么微调。假设我们有一些客服对话数据，想让模型学会用更友好的方式回答：

from unsloth import FastLanguageModel from trl import SFTTrainer from transformers import TrainingArguments import pandas as pd # 1. 准备一些示例数据 train_data = [ {"instruction": "用户说产品太贵了", "response": "我理解您的顾虑。我们的产品在质量上有保证，同时我们经常有优惠活动，您可以关注一下。"}, {"instruction": "用户询问发货时间", "response": "一般在下单后24小时内发货，具体物流时间取决于您所在的地区。"}, # ... 更多数据 ] # 2. 格式化数据 def format_data(examples): texts = [] for inst, resp in zip(examples["instruction"], examples["response"]): text = f"### 指令：{inst}\n### 回答：{resp}" texts.append(text) return {"text": texts} # 3. 创建训练参数 training_args = TrainingArguments( output_dir="./llama_finetuned", per_device_train_batch_size=4, gradient_accumulation_steps=4, num_train_epochs=3, learning_rate=2e-4, fp16=True, # 混合精度训练，节省显存 logging_steps=10, save_steps=100, ) # 4. 创建训练器并开始训练 trainer = SFTTrainer( model=model, tokenizer=tokenizer, args=training_args, train_dataset=formatted_data, dataset_text_field="text", max_seq_length=1024, ) print("开始训练Llama模型...") trainer.train() print("训练完成！")

这个流程展示了完整的微调步骤。Unsloth在这里的关键作用是：让这个训练过程比用原始Hugging Face代码快2倍，显存少用70%。

4. Qwen系列：中文模型的优化支持

4.1 Qwen 1.5 vs Qwen 2：该选哪个？

Qwen（通义千问）是国内很受欢迎的开源模型系列。Unsloth对它的支持也很不错，特别是对中文数据的处理。

Qwen 1.5系列：

成熟稳定，社区资源丰富
从0.5B到72B各种尺寸都有
中文表现优秀，适合中文任务微调

Qwen 2系列：

性能更强，技术更新
支持更长的上下文（128K）
数学和代码能力提升明显

选择建议：如果你的项目需要最好的中文理解能力，选Qwen；如果需要最新的技术特性，选Qwen 2。

4.2 加载Qwen模型的特殊注意事项

加载Qwen模型和Llama差不多，但有几个细节要注意：

from unsloth import FastLanguageModel # 加载Qwen 2.5 7B模型 model, tokenizer = FastLanguageModel.from_pretrained( model_name="Qwen/Qwen2.5-7B-Instruct", max_seq_length=32768, # Qwen 2.5支持长上下文，可以设大一点 load_in_4bit=True, # Qwen需要指定正确的dtype dtype=torch.bfloat16, ) # 对于Qwen模型，分词器可能需要特殊设置 tokenizer.pad_token = tokenizer.eos_token # 设置pad token tokenizer.padding_side = "left" # 对于生成任务，padding在左边更好

注意那个max_seq_length参数。Qwen 2.5支持很长的上下文（最多128K），但实际设置时要考虑你的显存大小。如果显存不够，就设小一点。

4.3 中文数据微调技巧

用Qwen微调中文数据时，有几个实用技巧：

数据清洗很重要：中文数据常有乱码、特殊字符，先清洗干净
考虑使用中文分词器：虽然Qwen自带的分词器对中文不错，但对于专业领域，可以考虑用jieba等工具预处理
注意文本长度：中文字符和英文字符在tokenization时长度不同，要预留足够空间

这里有个中文数据处理的例子：

def prepare_chinese_data(texts, tokenizer, max_length=512): """处理中文文本数据""" processed_texts = [] for text in texts: # 1. 基础清洗 text = text.strip().join(text.split()) # 去除空白字符 # 2. 截断或填充到合适长度 tokens = tokenizer.encode(text, truncation=True, max_length=max_length) # 3. 解码回文本（确保长度一致） processed = tokenizer.decode(tokens, skip_special_tokens=True) processed_texts.append(processed) return processed_texts

5. Gemma系列：轻量高效的选择

5.1 Gemma的特点和适用场景

Gemma是Google推出的轻量级模型系列，有2B和7B两个版本。它的特点是：

非常轻量：2B版本可以在很多设备上运行
效果不错：在相同参数量下，性能很有竞争力
适合移动端和边缘设备：模型小，部署方便

适用场景：

手机APP集成
实时性要求高的应用
资源受限的环境（如嵌入式设备）

5.2 在Unsloth上运行Gemma

Gemma在Unsloth上的使用和其他模型类似，但要注意Google对Gemma的使用有一些条款限制，商用前要仔细阅读。

加载Gemma的代码：

from unsloth import FastLanguageModel # 加载Gemma 2B模型 model, tokenizer = FastLanguageModel.from_pretrained( model_name="google/gemma-2b", max_seq_length=1024, load_in_4bit=True, ) # Gemma 2B真的很小，可以在很多卡上运行 print(f"Gemma 2B参数量：{model.num_parameters() / 1e9:.1f}B") print(f"显存占用：{torch.cuda.memory_allocated() / 1024**3:.2f} GB")

你会发现，Gemma 2B在开启了4bit量化后，显存占用可能只有2-3GB，这在很多消费级显卡上都能跑。

5.3 微调Gemma的实用配置

因为Gemma模型小，微调时可以调整一些参数：

training_args = TrainingArguments( output_dir="./gemma_finetuned", per_device_train_batch_size=8, # 可以设大一点，因为模型小 gradient_accumulation_steps=2, num_train_epochs=5, # 小模型可能需要更多轮次 learning_rate=5e-4, # 学习率可以稍高 warmup_steps=100, logging_steps=50, fp16=True, optim="adamw_8bit", # 使用8bit优化器，进一步省显存 )

对于小模型，我的经验是：

batch size可以大一些：因为每个样本占用的显存少
训练轮次可以多一些：小模型容量有限，需要更多数据反复学习
学习率可以高一些：收敛更快

6. 模型选择决策指南

6.1 根据你的需求选择模型

看了这么多模型，到底该选哪个？我总结了一个简单的决策流程：

第一步：确定你的硬件条件

显存<8GB：选Gemma 2B或Phi-2
显存8-16GB：选Llama 2 7B、Qwen 1.5 7B、Gemma 7B
显存>16GB：可以考虑13B或更大模型

第二步：确定你的任务类型

中文任务优先：Qwen系列
英文任务优先：Llama系列
需要部署到移动端：Gemma 2B
需要代码能力：CodeLlama或Qwen-Coder

第三步：考虑数据量

数据少（<1000条）：选小模型，避免过拟合
数据多（>10000条）：可以考虑大模型

6.2 性能对比参考

为了帮你更直观地选择，这里有个简单的对比表格：

模型	参数量	推荐显存	训练速度	中文能力	代码能力	适合场景
Llama 2 7B	7B	8GB+	★★★★☆	★★☆☆☆	★★★☆☆	通用英文任务
Qwen 1.5 7B	7B	8GB+	★★★★☆	★★★★★	★★★★☆	中文相关任务
Gemma 2B	2B	4GB+	★★★★★	★★☆☆☆	★★☆☆☆	移动端/轻量级
Phi-2	2.7B	4GB+	★★★★★	★★☆☆☆	★★★☆☆	教育/研究

注：训练速度是在Unsloth优化下的相对速度

6.3 开始你的第一个项目

如果你还是不确定，我建议按这个步骤开始：

从Llama 2 7B chat开始：这是最稳妥的选择，资料多，社区支持好
准备100-200条高质量数据：不要一开始就搞大数据集
用默认参数先跑起来：不要一开始就调很多参数
评估效果，再迭代：根据结果调整模型或数据

记住：第一个项目的目标是跑通流程，不是达到完美效果。先让整个流程work起来，再慢慢优化。

7. 常见问题与解决方案

7.1 模型加载失败怎么办？

这是最常见的问题。通常有几个原因：

问题1：模型名称写错了

# 错误示例 model_name = "llama-2-7b" # 缺少作者前缀 # 正确示例 model_name = "meta-llama/Llama-2-7b-hf" # 完整的HF路径

问题2：网络问题下载失败

# 可以设置镜像或代理 import os os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com' # 使用镜像

问题3：显存不足

# 尝试更激进的量化 model, tokenizer = FastLanguageModel.from_pretrained( model_name=model_name, load_in_4bit=True, # 使用4bit bnb_4bit_compute_dtype=torch.float16, # 计算用float16 bnb_4bit_quant_type="nf4", # 使用NF4量化 )

7.2 训练过程中显存溢出

如果训练时显存不够，可以尝试：

减小batch size：这是最直接的方法
使用梯度累积：模拟更大的batch size
启用梯度检查点：用时间换空间
使用更小的模型：比如从7B降到2B

training_args = TrainingArguments( per_device_train_batch_size=2, # 减小batch size gradient_accumulation_steps=8, # 累积梯度 gradient_checkpointing=True, # 梯度检查点 fp16=True, # 混合精度训练 )

7.3 微调效果不理想

如果微调后模型效果不好，可以从这几个方面检查：

数据质量：数据是否干净？标注是否一致？
数据量：是否足够？一般至少需要几百条
学习率：是否合适？可以尝试不同的学习率
训练轮次：是否过多或过少？
模型是否适合任务：比如用代码模型做文本分类可能不合适

一个实用的调试流程：

# 1. 先用小数据测试 test_data = data[:10] # 只用10条数据 # 2. 快速训练1个epoch training_args.num_train_epochs = 1 # 3. 检查loss是否下降 # 如果loss根本不下降，可能是学习率太大或模型冻结了 # 4. 逐步增加数据量

8. 总结

通过这篇文章，你应该对Unsloth支持的模型有了全面的了解。我们来回顾一下关键点：

第一，Unsloth支持的主流模型很丰富。从Llama、Qwen到Gemma，覆盖了当前最流行的开源大模型。无论你是做中文项目还是英文项目，是追求性能还是追求效率，都能找到合适的模型。

第二，选择模型要考虑实际条件。你的硬件配置、数据特点、任务需求，这些因素共同决定了哪个模型最适合你。不要盲目追求大模型，合适的就是最好的。

第三，Unsloth的真正价值是降低门槛。它通过内存优化、速度优化，让原本需要专业设备的大模型训练，现在在消费级显卡上也能进行。这意味着更多的开发者、研究者可以参与到AI微调中来。

第四，实践是最好的学习方法。我给你的建议是：今天就选一个模型，准备一点数据，实际跑一遍微调流程。遇到问题就解决问题，这样学得最快。

最后记住，技术是不断发展的。Unsloth在持续更新，新的模型也在不断出现。保持学习的心态，多尝试、多实践，你就能在这个快速发展的领域中找到自己的位置。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 ZEEKLOG星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Unsloth支持哪些模型？Llama/Qwen/Gemma兼容性指南

优质文章学习记录