文心一言和通义千问大模型

序号

考察能力

题目

回复

评价

1

逻辑推理

一个人带一只黄狗、一只白兔和一颗白菜过河,河边只有一条小船,此人每次只能带一样东西过河,如果此人不在,黄狗要咬白兔,白兔要啃白菜。请想一想:既不让黄狗咬白兔,又不让白兔啃白菜,该怎么设计过河方案

  1. 文心一言大模型:
  2. 第一步:人带着白兔过河,然后人独自返回。此时河对岸只有白兔,这边剩下黄狗和白菜,两者不会互相影响。第二步:人带着黄狗过河,到达对岸后,带着白兔返回。若不带走白兔,黄狗会咬白兔,所以必须将白兔带回来;此时河对岸只有黄狗,这边有白兔和白菜。第三步:人带着白菜过河,然后人独自返回。此时河对岸是黄狗和白菜,两者不会互相影响,这边只剩下白兔。第四步:人带着白兔过河。
  3. 通义千问大模型:
  4. ・带兔过河(左→右)。・人回(右→左)。・带狗过河(左→右)。・带兔回(右→左)。・带菜过河(左→右)。・人回(右→左)。・带兔过河(左→右)。

你认为使用的大语言模型的本项能力是:优秀、良好、合格、不合格

xxx1大模型:优秀

xxx2大模型:优秀

2

总结归纳

我家的猫叫花咪咪,我家的狗叫黄旺旺,请问我家的羊叫什么

xxx1大模型:题目中没有给出羊的名字相关信息,无法直接确定你家羊的名字哦。猫叫花咪咪、狗叫黄旺旺,名字都带有叠字和动物相关的特征,但这只是规律推测,不能作为羊的名字的依据。

xxx2大模型:从你给出的猫和狗的名字来看,名字有叠字的特点(咪咪、旺旺),不过并没有明确说明羊的名字,所以没办法准确告诉你羊叫什么,你可以给它起一个符合这个规律的名字,比如 “咩咩” 之类的。

xxx1大模型:优秀

xxx2大模型:良好

3

计算能力

753×951=?

xxx1大模型:753×951 的计算结果是 716103。计算过程:753×(900+50+1)=753×900 + 753×50 + 753×1=677700+37650+753=716103

xxx2大模型:753×951=716103

xxx1大模型:优秀

xxx2大模型:优秀

4

历史知识

“五代十国”包括哪些朝代

xxx1大模型:五代是指唐朝灭亡后依次更替的位于中原地区的五个政权,分别是后梁、后唐、后晋、后汉、后周。十国是指在五代之外,相继出现的十个割据政权,主要有前蜀、后蜀、南吴、南唐、吴越、闽国、楚、南汉、南平(荆南)、北汉。十国只是一个概称,并非恰好十个。

xxx2大模型:五代十国是中国历史上的分裂时期,“五代” 指中原地区的五个王朝:后梁、后唐、后晋、后汉、后周;“十国” 是中原以外的十个割据政权,包括前蜀、后蜀、吴、南唐、吴越、闽、楚、南汉、南平、北汉。

xxx1大模型:优秀

xxx2大模型:优秀

5

历史知识+逻辑推理

刘备怎样才能统一天下

xxx1大模型:刘备若想统一天下,需从以下几方面着手:1. 稳固后方:重视益州治理,发展农业、手工业,保障粮草供应,同时调和荆州派与益州派士族矛盾,避免内耗。2. 战略调整:关羽失荆州后,暂缓伐吴,继续联吴抗曹,避免两线作战;利用曹魏内部矛盾(如司马懿与曹氏宗亲的争斗),伺机北伐。3. 人才储备:除诸葛亮外,需发掘更多文武人才,避免人才断层;重视对下一代的培养,确保政权平稳交接。4. 民心向背:坚持 “仁政” 理念,在占领区减轻赋税,收拢民心,对比曹魏的苛政和东吴的士族垄断,形成优势。

xxx2大模型:刘备要统一天下,核心是解决战略失误和内部隐患,具体策略:1. 联吴到底:严格执行诸葛亮 “联吴抗曹” 的战略,约束关羽,避免与东吴冲突,合力对抗曹魏主力。2. 优化北伐:以益州为大后方,联合西北少数民族势力,从汉中、凉州两路出兵,牵制曹魏兵力,而非诸葛亮后期的单线北伐。3. 内部整合:平衡荆州集团、益州本土士族和东州集团的利益,吸纳本土人才,减少内部派系斗争,增强凝聚力。4. 抓住时机:趁曹丕篡汉、曹魏内部不稳时,打出 “兴复汉室” 的旗号,争取中原士族和百姓支持,扩大政治影响力。

xxx1大模型:优秀

xxx2大模型:优秀

6

创作能力

我是一个科技公司的老板,请帮我设计一份简短的公司年会发言稿,100字以内

xxx1大模型:各位同事,新年好!过去一年,我们以创新为刃,攻克难关,收获满满。新的一年,愿我们携手并肩,突破边界,再创辉煌!祝大家新年快乐,万事顺遂!

xxx2大模型:各位伙伴,岁末欢聚,感恩同行!这一年,我们靠技术突围,成绩亮眼。新征程,让我们聚力创新,勇攀高峰!祝大家新春快乐,阖家幸福!

xxx1大模型:优秀

xxx2大模型:优秀

7

角色扮演+创作能力

我是一名女学生,身高160cm,体重60kg,平时学习比较紧张,假如你是我的健身教练,请帮忙设计一个每天30min的健身计划

xxx1大模型:30 分钟学生健身计划1. 热身(5min):原地高抬腿 + 关节环绕,激活身体。2. 核心训练(10min):平板支撑(3 组 ×1min)、臀桥(3 组 ×15 次),改善体态。3. 有氧训练(10min):跳绳(间歇跳,30s 跳 + 30s 休),高效燃脂。4. 拉伸(5min):腿部 + 背部拉伸,缓解久坐疲劳。

xxx2大模型:每日 30min 健身计划(学生版)1. 热身(5min):开合跳 + 肩部绕环,避免运动损伤。2. 力量塑形(10min):深蹲(3 组 ×12 次)、靠墙静蹲(3 组 ×1min),锻炼下肢。3. 有氧(10min):原地慢跑 + 后踢腿,提升代谢。4. 放松(5min):瑜伽猫牛式 + 大腿拉伸,舒缓腰背。

xxx1大模型:优秀

xxx2大模型:良好

8

续写

如果由你来续写《红楼梦》的后40回,你会如何设计其中的情节?请用100字以内的篇幅概括

xxx1大模型:贾府获罪后,宝玉流落江南,偶遇出家的惜春,得见妙玉托孤信物。黛玉魂归之际,宝玉梦中得警幻提点,悟透因果。后宝钗病逝,宝玉在雪夜披蓑而行,于渡口重逢湘云,相视一笑泯恩仇。

xxx2大模型:贾府败落,宝玉被救后隐居山村,偶得黛玉生前诗稿,日夜研读。探春远嫁归来,助力贾府平反。宝玉看淡红尘,在黛玉坟前拜别后,随一僧一道而去,只留空空道人续写残篇。

xxx1大模型:优秀

xxx2大模型:优秀

9

伦理问题

一列火车正常行驶,前方轨道上有5个小孩在玩耍,而另一条废弃轨道上有一个小孩。如果你是火车司机,突然发现制动失灵,你会变更轨道吗

xxx1大模型:这是经典的电车难题,没有绝对正确的答案。从伦理角度,变更轨道意味着主动选择牺牲一人,违背了 “不主动伤害他人” 的原则;不变更轨道,虽非主动选择,但会造成更多伤亡。若我是司机,可能会陷入两难,更倾向于遵守轨道规则,不随意变更,因为废弃轨道上的小孩本无过错,不应为他人的违规买单。

xxx2大模型:个问题没有标准答案,核心是伦理抉择。我不会变更轨道,因为废弃轨道上的孩子是遵守规则的,而另一条轨道的孩子违规玩耍。如果为了救 5 人牺牲 1 个守规则的人,是对规则的破坏,可能会引发更严重的伦理隐患。

xxx1大模型:优秀

xxx2大模型:优秀

10

记忆能力

最近24h内,我提了几个问题?其中有几个关于历史的问题

xxx1大模型:我没有实时统计 24 小时内提问数量的功能,且未保留相关对话的实时记忆,无法准确回答这个问题哦。

xxx2大模型:于我的对话记忆是基于单轮或当前会话的,没有跨会话统计 24 小时内提问数量的能力,所以没办法告诉你具体的问题数和历史相关问题数。

xxx1大模型:合格

xxx2大模型:合格

11

简单比大小

数字9.11和9.9哪个大

xxx1大模型:比较 9.11 和 9.9 的大小,先看整数部分,两者都是 9,相等;再看十分位,9.11 的十分位是 1,9.9 的十分位是 9,因为 9>1,所以9.9>9.11。

xxx2大模型:9.9 更大。比较小数大小时,先比整数部分,整数部分相同再比十分位,9.9 的十分位是 9,9.11 的十分位是 1,9 大于 1,因此 9.9>9.11。

xxx1大模型:优秀

xxx2大模型:优秀

序号1-11是纯文本任务

序号

考察能力

题目

回复

评价

12

平面设计

请设计一个科技公司的Logo,要求扁平化风格,构图简洁明了

xxx1大模型:由几何图形 “圆形 + 箭头” 构成,圆形代表科技的包容与无限可能,箭头呈顺时针环绕,象征创新与发展。 色彩:主色调为科技蓝,搭配浅灰色,简洁大气。 文字:公司名称采用无衬线字体,位于图形右侧,与图形呼应,整体视觉平衡、简洁易记。

xxx2大模型:扁平化科技 Logo 设计 核心图形:两个重叠的正方形,外层浅蓝,内层深蓝,中间镂空一个小圆形,象征科技的精准与互联。 风格:无多余装饰,线条利落。 搭配:公司英文名缩写嵌入圆形内,整体简约现代,符合科技企业的专业形象。

你认为使用的大语言模型的本项能力是:优秀、良好、合格、不合格

xxx1大模型:良好

xxx2大模型:良好

13

文生图

请生成一张名为“花丛中的女孩”的图像:明媚的阳光下,一个身穿白裙子的女孩站在花丛中

xxx1大模型:明媚阳光洒落,金黄光线勾勒出花丛轮廓,各色野花盛放,穿白色连衣裙的女孩站在花丛中央,发丝轻扬,面带微笑,背景是澄澈蓝天,整体色调温暖清新。

xxx2大模型:生成的 “花丛中的女孩” 图像如下:晴朗日光下,大片粉紫色花田铺展,白裙女孩立于花中,裙摆被微风拂动,阳光透过花瓣在她身上洒下斑驳光影,画面清新治愈,充满自然气息。

xxx1大模型:优秀

xxx2大模型:优秀

14

图像识别

请识别图像中的景点

xxx1大模型:这是北京天坛公园的核心建筑祈年殿。它是明清两代皇帝祭天、祈谷的场所,以三重檐圆形攒尖顶、蓝琉璃瓦和精美的彩绘装饰为标志性特征,是中国古代建筑艺术的瑰宝之一。

xxx2大模型:该景点是北京天坛的祈年殿,属于天坛公园的主体建筑之一,以圆形三重檐的独特造型、蓝金配色的装饰风格闻名,是北京的标志性历史建筑之一。

xxx1大模型:优秀

xxx2大模型:优秀

15

图像识别

上传一张迈克尔·乔丹的图像,请大语言模型识别其中是谁

xxx1大模型:这是篮球运动员迈克尔・乔丹,他身穿芝加哥公牛队 23 号球衣,正在进行扣篮动作。迈克尔・乔丹是 NBA 传奇球星,被誉为 “篮球之神”,曾多次获得 NBA 总冠军、常规赛 MVP 等荣誉。

xxx2大模型:图中人物是迈克尔・乔丹,他是前美国职业篮球运动员,以芝加哥公牛队 23 号球衣为标志性形象之一,是篮球史上最具影响力的运动员之一。

xxx1大模型:优秀

xxx2大模型:优秀

16

图像识别

请识别图像中有几个人,他们在干什么

xxx1大模型:这张图中有 7 个人,他们穿着统一风格的服装(黑色内搭 + 军绿色外套),彼此搭着肩膀,表情开心、姿态放松,看起来是在进行合影留念,氛围轻松愉快。

xxx2大模型:图里有 7 个人,他们穿着带有相同标识的衣服,互相搂着肩膀,脸上带着笑容,应该是在拍摄集体照片,状态比较活泼。

xxx1大模型:优秀

xxx2大模型:优秀

17

图像识别

请识别图像中人物的表情,分析其此刻的心情

xxx1大模型:图中 7 个人的表情以大笑、咧嘴微笑为主,眉眼舒展、嘴角上扬,部分人还呈现出开心的夸张神态(比如张嘴露齿),这些表情都传递出愉悦、兴奋的情绪,说明他们此刻处于轻松、快乐的状态中。

xxx2大模型:图像里的人物大多是大笑的表情,嘴巴张开、笑容明显,神态放松且舒展,能看出他们现在的心情是开心、愉悦的,整体氛围比较欢快。

xxx1大模型:优秀

xxx2大模型:优秀

18

图像识别

请识别图像中人物的大概年龄

xxx1大模型:大概30岁

xxx2大模型:大概30岁

xxx1大模型:合格

xxx2大模型:合格

19

图像识别+数学能力

准备一张包含初中数学题的图像,请大语言模型求解,并给出求解的过程

xxx1大模型:

xxx2大模型:

xxx1大模型:

xxx2大模型:

序号12-19是图像处理任务

Read more

解析 ‘LLM-as-a-judge’:如何编写一套可靠的 Prompt 让 GPT-4 为你的 Llama-3 输出打分?

各位编程爱好者、AI工程师们: 大家好!欢迎来到今天的技术讲座。今天,我们将深入探讨一个在当前AI领域备受关注且极具实用价值的话题:如何利用“LLM-as-a-judge”范式,特别是如何编写一套可靠的Prompt,让强大的GPT-4模型为我们的Llama-3模型输出进行打分和评估。 随着大语言模型(LLM)技术的飞速发展,我们拥有了Llama-3、GPT-4等一系列令人惊叹的模型。但随之而来的挑战是:我们如何有效地评估这些模型的性能?特别是在微调(fine-tuning)、Prompt工程优化,甚至是模型架构迭代的过程中,我们需要一个快速、可扩展且尽可能客观的评估机制。传统的基于人工标注的评估方式,虽然“金标准”性强,但成本高昂、耗时费力,难以跟上模型迭代的速度。 正是在这样的背景下,“LLM-as-a-judge”应运而生。它利用一个或多个强大的LLM(通常是能力更强的模型,如GPT-4)来评估另一个LLM(例如我们的Llama-3)的输出质量。这种方法不仅可以大幅提升评估效率,还能在一定程度上自动化评估流程,为我们的模型开发提供快速反馈。 今天的讲座,我将作为一名编程专家

Python AI入门:从Hello World到图像分类

Python AI入门:从Hello World到图像分类 一、Python AI的Hello World 1.1 环境搭建 首先,我们需要搭建Python AI的开发环境: # 安装PyTorch pip install torch torchvision # 安装其他依赖 pip install numpy matplotlib 1.2 第一个AI程序 让我们来编写一个最简单的AI程序 - 线性回归: import torch import torch.nn as nn import numpy as np import matplotlib.pyplot as plt # 生成训练数据 x = torch.linspace(

使用 VS Code 和 Android Studio 阅读 Android 源码:基于 Copilot 的高效代码分析技巧

使用 VS Code 和 Android Studio 阅读 Android 源码:基于 Copilot 的高效代码分析技巧

1. 背景 在日常开发中,大家常用 AI 工具(如 ChatGPT、DeepSeek 等)进行代码分析。但通过网页 AI 工具分析代码时,缺乏上下文,需要手动分段粘贴代码,效率低且容易遗漏关键信息。 公司引入 Copilot 后,大家多在 VS Code、Android Studio 等 IDE 插件中用 Copilot 进行代码分析。Copilot 能直接分析当前编辑器中的代码,并支持上下文,极大提升了分析效率,减少了人工粘贴的麻烦。 但实际开发中,仍存在以下痛点: * 代码跳转不连贯:对于 Android.bp soong 构建系统下的 Android 代码,不能自由地跳转到方法定义、实现、符号等。 * 查找方法繁琐:大部分

Qwen3-1.7B代码生成效果如何?GitHub Copilot类比评测

Qwen3-1.7B代码生成效果如何?GitHub Copilot类比评测 最近,阿里开源了新一代的千问大模型系列——Qwen3。这个系列阵容强大,从0.6B到235B,各种尺寸都有。今天,咱们不聊那些动辄几百亿参数的大块头,就聚焦一个特别有意思的小家伙:Qwen3-1.7B。 为什么是它?因为1.7B这个参数量,刚好卡在一个很微妙的位置:它比那些动辄几十亿参数的“大模型”轻巧得多,理论上部署和推理成本都更低;但又比一些纯玩具级别的微型模型要“聪明”不少。更重要的是,它主打的就是代码生成能力。 这让我立刻想到了一个“参照物”——GitHub Copilot。作为目前最流行的AI编程助手,Copilot几乎成了代码生成的代名词。那么,这个新来的、开源的、只有1.7B参数的Qwen3,在代码生成这件事上,到底有几斤几两?它能达到Copilot几成的功力?还是说,它有自己的独特优势? 这篇文章,我就带你一起上手实测,用最直观的方式,看看Qwen3-1.7B在代码生成上的真实表现,