「源力觉醒 创作者计划」_百度开源文心 4.5 系列开源大模型:ERNIE-4.5-VL-28B-A3B-Paddle vs DeepSeek-R1 多维度测评分析

「源力觉醒 创作者计划」_百度开源文心 4.5 系列开源大模型:ERNIE-4.5-VL-28B-A3B-Paddle vs DeepSeek-R1 多维度测评分析

「源力觉醒 创作者计划」_百度开源文心 4.5 系列开源大模型:ERNIE-4.5-VL-28B-A3B-Paddle vs DeepSeek-R1 多维度测评分析

文章目录

背景

人工智能技术迅猛发展,大模型成为推动各行业智能化升级的核心引擎,百度开源的文心 4.5 系列大模型中的 ERNIE-4.5-VL-28B-A3B-Paddle,创新的技术架构与卓越的性能表现,多模态处理、知识理解等领域展现出强大潜力,本文将通过详细的部署实操、多维度性能对比,深度剖析 ERNIE-4.5-VL-28B-A3B-Paddle 在实际应用场景中的表现。

ERNIE-4.5-VL-28B-A3B-Paddle 模型介绍

关键字
模态文本 & 视觉
训练阶段后训练
参数量(总/激活)28B / 3B
层数28
头数(Q/KV)20 / 4
文本专家(总/激活)64 / 6
视觉专家(总/激活)64 / 6
共享专家2
上下文长度131072
ERNIE-4.5-VL-28B-A3B 是一个多模态 MoE 聊天模型,总参数量为 28B,每个 Token 激活参数量为 3B,ERNIE 4.5 模型基于 MoE 的 A47B 和 A3B 系列,先进能力源于三大关键技术创新:

✅多模态异构 MoE 预训练,通过设计异构 MoE 结构、引入模态隔离路由等,联合训练文本和视觉模态,提升多模态任务性能

✅规模效率化基础设施,提出异构混合并行和层次负载均衡策略用于训练,采用多专家并行协作等方法用于推理,基于 PaddlePaddle 实现高性能推理

✅模态特定后训练,针对不同需求对预训练模型变体进行特定模态微调,在视觉语言模型微调阶段,聚焦核心能力优化数据构建和训练策略,并使用 RLVR 提升对齐和性能

ERNIE-4.5-VL-28B-A3B-Paddle 部署体验

1、PP飞浆AI Studio:模型库-搜索ERNIE-4.5-VL-28B-A3B-Paddle模型



2、快速开发



3、新增一个baidu名称的目录



4、删除清空实例代码



5、安装 aistudio-sdk 库以支持平台相关功能,接着使用 aistudio 命令行工具下载 “PaddlePaddle/ERNIE-4.5-VL-28B-A3B-Paddle” 模型到本地目录,最后通过 erniekit 工具基于 8K 序列长度配置文件对该模型进行监督微调训练



6、等待模型运行加载下载



7、下载运行成功



8、点击专业开发



9、点击左上角-终端-新建终端:输入如下命令进行框架安装通过指定镜像源安装支持 CUDA 12.6 的 PaddlePaddle 3.1.0 GPU 版本,从清华镜像源补充依赖并安装适配 GPU(支持 CUDA 8.6/8.9)的 FastDeploy 推理框架



10、PyCharm配置代码通过 OpenAI Python 库调用飞桨 AI Studio 平台的自定义 API 接口,配置自定义的 API 密钥和 base_url 指向飞桨的代理服务,然后创建一个聊天完成请求,使用默认模型以 0.6 的温度生成回复,并启用流式输出模式,代码在处理响应时会优先输出推理中间过程,否则输出最终回复内容,实现实时打印模型生成的文本





11、图片识别准备一张图片

代码配置



多轮对话


ERNIE-4.5-VL-28B-A3B-Paddle 对比 DeepSeek-R1

对比项目ERNIE-4.5-VL-28B-A3BDeepSeek-R1
模型类型多模态大模型大型语言模型,主打推理功能
参数量28B6710 亿,另有 1.5B 至 70B 的蒸馏版本
训练框架飞桨(PaddlePaddle)未明确提及,但 DeepSeek 系列通常基于 Transformer 架构
训练方法采用 “FlashMask 动态注意力遮蔽” 和 “异质多模态混合专家” 架构,实现多模态数据的协同优化采用多阶段混合训练策略,包括监督微调冷启动和强化学习优化;使用 GRPO 算法替代传统的 PPO 算法
开源协议Apache 2.0 licence,允许学术和商业使用MIT 协议,开源模型权重、训练代码和数据处理工具链
性能表现在 28 个基准测试中的 20 多个指标上超越了 DeepSeek-V3-671B-A37B-Base,达到 SOTA 水平在 AIME 2024 上达到了 79.8% 的 Pass@1 分数,稍微超过 OpenAI-o1-1217;在 MATH-500 中取得了 97.3% 的分数,表现与 OpenAI-o1-1217 相当
擅长领域跨模态的理解与生成能力强,能够无缝整合文本、图像、音频和视频内容在数学、编程和推理等任务上表现出色
ERNIE-4.5-VL-28B-A3B 与 DeepSeek-R1 对比测试时,保持除模型外其他参数一致,这样对比结果更具参考性,能清晰看出模型在不同任务场景的表现差异

通用文本理解与生成
用日常多样主题的指令,看生成文本的逻辑、表达自然度,测试模型基础语言能力
测试内容
新闻原文(可简化给模型): “本市 XX 小区近期因宠物扰民纠纷增多,居民志愿者发起‘宠物友好公约’倡议,包含遛狗时间、粪便清理等条款,经业主群讨论后,超 8 成住户支持,周末已组织首场文明遛狗宣传活动。” 把这段严肃新闻改写成脱口秀段子,保留核心事件(某小区居民自发组织 “宠物友好公约” ),用幽默吐槽、接地气梗呈现,200 字左右 
在这里插入图片描述
结果分析
ERNIE-4.5-VL-28B-A3B 更贴近小区邻里唠嗑松弛感,紧扣新闻核心"宠物公约从纠纷到落地",用 “狗子直立行走、业主群炸锅” 这类生活化吐槽,把规则自然融进段子,信息清晰好懂,还留了 “人狗示范区” 互动钩子

DeepSeek-R1 走网感综艺梗路线,拿 “人类驯狗影像、汪汪队宪法” 玩二次创作,脑洞密集但信息碎片化,规则藏在梗里难提炼,更像独立短段子,后续延展话题的空间弱

ERNIE 适合让普通人听明白又乐呵的日常脱口秀,DeepSeek 更对互联网冲浪选手的 “玩梗胃口”,风格差异背后,前者侧重生活场景文本转换,后者偏向网感内容再创作
专业知识问答
选不同领域深度问题,验证知识储备、解答准确性与专业度,体现知识掌握水平
测试内容
请从算法公平性角度,分析深度学习模型在信贷风险评估场景中,可能产生偏见的 3 类核心原因(需区分数据、模型、应用流程维度),并给出对应缓解策略,要求专业逻辑清晰,300 - 400 字。
在这里插入图片描述
结果分析
ERNIE - 4.5 - VL - 28B - A3B 围绕算法公平性,从数据、模型、应用流程维度,系统拆解深度学习模型在信贷场景偏见成因,如数据存在偏差、模型结构有局限等,策略覆盖工具优化、架构调整与流程规范,逻辑严谨且专业纵深

DeepSeek - R1 同样按维度分析,结合对抗训练、正则化等技术谈缓解,案例与表述更具网感,侧重实操路径

ERNIE - 4.5 - VL - 28B - A3B 和 DeepSeek - R1 完成知识拆解,但 ERNIE 偏学术体系化输出,DeepSeek 更贴近工程实践场景,差异体现知识组织与风格适配的模型特性
多轮对话连贯性
设计连续关联话题(如先聊旅游经历,再延伸规划下次旅行 ),观察对话衔接、意图理解延续性,检验交互能力。
测试内容
社会话题 - AI 就业影响Round 1:AI 工具普及,会让普通文案岗位消失吗?Round 2:那文案从业者想转型,该补哪些 AI 技能?Round 3:如果成立一个‘文案人 AI 技能互助小组’,怎么设计学习计划?Round 4:用小组学习计划为基础,写一段招募文案,突出AI 转型必要性

核心测社会议题链:从岗位担忧到转型路径,再到落地行动,看模型对「问题提出→解决方案→执行设计」的逻辑衔接
Round 1

Round 2

Round 3

Round 4

ERNIE-4.5-VL-28B-A3B 最终生成内容DeepSeek-R1最终生成内容
结果分析
从多轮对话连贯性看,围绕文案人 AI 转型主题,都完成了需求承接与内容延伸,但风格和逻辑路径有差异:ERNIE走理性赋能路线,以 “问题→方案→价值” 线性推进,从转型焦虑切入,逐步拆解工具、实战、协作等系统策略,回应每一轮对 “转型方法、执行路径” 的需求,像导师式陪跑,逻辑扎实、步骤清晰DeepSeek主打危机破局叙事,用 “威胁→转机→行动” 制造情绪张力,借数据、案例强化紧迫感,回应中融入 “证书、变现” 等现实利益,更像营销式动员,抓眼球、促行动

差异源于模型对 “对话需求” 的理解侧重 :ERNIE 聚焦知识落地的连贯性,DeepSeek 侧重情绪驱动的延续性,一个稳扎稳打教方法,一个剑走偏锋造势能

百度开源文心4.5系列开源

模型类型激活参数规模总参数量模型特点
混合专家(MoE)模型47B约 424B通过专家路由技术,保持高容量的同时显著降低 FLOPs,适用于多模态任务,通过跨模态参数共享机制实现模态间知识融合
混合专家(MoE)模型3B约 30B轻量级多模态模型,具备多模态理解能力,适用于对模型规模和计算资源要求相对较低的场景
稠密参数模型0.3B未提及面向边缘与移动端,参数量小、推理快,适用于资源受限的设备和场景
百度开源文心 4.5 系列的 10 款模型(涵盖 47B、3B 的 MoE 模型及 0.3B 稠密模型),开源不仅为学术界和产业界提供了多规模、多模态的高性能模型底座,降低大模型应用门槛,还通过开放技术细节(如异构 MoE 结构、高效训练推理方案等)推动行业在多模态融合、规模效率化等关键技术上的协同创新,同时助力开发者基于不同参数规模模型快速适配边缘端、移动端到云端等多样化场景,加速大模型技术的产业化落地与生态繁荣。

总结

ERNIE-4.5-VL-28B-A3B-Paddle 百度文心 4.5 系列的多模态 MoE 大模型,以 28B 总参数与 3B 激活参数的高效设计,通过多模态异构 MoE 预训练、规模效率化基础设施及模态特定后训练三大技术创新,在跨模态理解与生成、长文本处理等领域表现卓越,部署流程便捷且适配多场景,与 DeepSeek-R1 相比,在多模态融合与实用场景落地中展现出差异化竞争力

多模态原生融合能力更强:ERNIE-4.5-VL-28B-A3B-Paddle 借异构 MoE 和模态隔离路由,原生支持图文识别等多模态任务,DeepSeek-R1 是单语言模型,处理多模态需额外适配,原生跨模态能力不足

长文本处理效率与精度更优:ERNIE-4.5-VL-28B-A3B-Paddle 131072 长上下文,在长文本场景中信息抓取与逻辑连贯性远超 DeepSeek-R1,DeepSeek-R1 相比较易遗漏信息或逻辑断裂

本土化部署与生态适配更完善:ERNIE-4.5-VL-28B-A3B-Paddle 基于 PaddlePaddle 深度优化,全流程工具链完善,适配国内硬件与行业场景;DeepSeek-R1 虽开源宽松,但本土化生态与场景方案覆盖不足
一起来轻松玩转文心大模型吧👉文心大模型免费下载体验地址:https://ai.gitcode.com/paddlepaddle/ERNIE-4.5-VL-424B-A47B-Paddle

Read more

如何快速实现无人机RemoteID合规?ArduRemoteID开源方案完整指南

如何快速实现无人机RemoteID合规?ArduRemoteID开源方案完整指南 【免费下载链接】ArduRemoteIDRemoteID support using OpenDroneID 项目地址: https://gitcode.com/gh_mirrors/ar/ArduRemoteID ArduRemoteID是一个专为无人机设计的开源RemoteID解决方案,基于OpenDroneID标准实现,完美支持FAA与欧盟法规要求。通过MAVLink和DroneCAN协议与飞行控制器通信,提供WiFi广播、蓝牙5等多种传输模式,兼容ESP32-S3/C3等主流硬件平台,帮助开发者轻松实现无人机身份识别功能。 🚁 项目核心功能解析 多协议兼容的身份发射系统 ArduRemoteID模块集成了MAVLink与DroneCAN双协议支持,可无缝对接ArduPilot等主流飞控系统。通过RemoteIDModule/transmitter.cpp实现的发射逻辑,能同时广播无人机位置、速度、高度等关键飞行数据,确保监管平台实时获取设备状态。 全平台硬件适配方案 支持ESP3

By Ne0inhk
腾讯QQ官方炸场!OpenClaw一键建5个机器人,个人号直接上手|实战教程

腾讯QQ官方炸场!OpenClaw一键建5个机器人,个人号直接上手|实战教程

文章目录 * 前言 * 一、OpenClaw是个啥?你的"数字长工" * 二、为什么说这次QQ"炸场"了? * 三、实操环节:从0到1,手把手养出你的AI小弟 * 3.1 在QQ开放平台"造人" * 3.2 给机器人找个"肉身"(部署OpenClaw) * 方案A:云服务器一键部署(推荐新手) * 方案B:宝塔面板可视化安装(适合有服务器的站长) * 方案C:本地Docker部署(适合极客) * 3.3 关键的"认亲"三步走 * 3.4 加好友,

By Ne0inhk
轮腿机器人代码调试补充

轮腿机器人代码调试补充

* @Author: 星夜雨夜 * @brief: 轮腿基础代码编写调试补充,移植自达妙开源代码 * @attention:笔者默认读者已经熟练掌握机甲大师RoboMaster c型开发板例程代码的底盘代码和INS_task.c陀螺仪代码、熟练掌握各电机can协议和遥控器dbus协议。默认读者已能看懂轮腿圣经和玺佬的五连杆运动学解算与VMC。建议读者仔细研读轮腿圣经3~5遍,边看MATLAB文件和达妙开源代码,掌握轮腿调试和编写大致思路。一定要注意各状态变量的单位和正负号是否正确,轮腿调试过程中,最难之处在于极性是否正确。本车所有电机均为逆时针旋转为正方向。 !!!强烈建议读者在开发轮腿之前,先运用LQR算法完成一阶倒立摆的平衡小车(即板凳模型)的实现 !!!如果时间紧,其实完全可以不搞仿真,直接实机开调。仿真不疯,实物不一定不疯;但实物疯,仿真必疯。 调试成果展示视频链接(抖音):轮腿机器人 一阶倒立摆平衡小车参考资料: 1.本科毕设 轮腿式双足机器人 开源文件演示_哔哩哔哩_bilibili(资料在视频评论区) 2.达妙平衡小车开源:[达妙科技开源系列-平衡小车] 第一弹_哔哩

By Ne0inhk

基于Verilog的数字密码锁设计与FPGA实现

1. 项目概述:从零打造一个FPGA数字密码锁 大家好,今天我想和大家分享一个特别实用的FPGA项目——用Verilog设计一个数字密码锁。这个项目不仅适合初学者入门,也包含了一些进阶功能,能够让你全面掌握数字电路设计的精髓。我自己在第一次做这个项目时踩过不少坑,但也收获了很多实战经验,现在把这些经验毫无保留地分享给大家。 数字密码锁是我们日常生活中常见的设备,但你可能从来没想过自己也能用FPGA来实现一个。这个项目最大的魅力在于,你不仅能学到Verilog编程技巧,还能亲手把代码烧录到FPGA开发板上,看到实实在在的硬件运行效果。我选择的密码锁设计支持4位数字密码,每位密码范围是0-5,而且还加入了密码修改、错误次数限制等实用功能。 如果你刚开始接触FPGA,可能会觉得硬件描述语言有点抽象。别担心,我会用最直白的方式解释每个设计环节。实际做下来,从编写代码到功能验证,完整流程大概需要2-3天时间。最重要的是,这个项目能让你真正理解状态机设计的思想,这是数字电路设计的核心概念之一。 2. 设计思路与架构规划 2.1 核心功能定义 在设计之初,我仔细规划了密码锁需要实现的功

By Ne0inhk