近日,中国信通院联合上海人工智能实验室成立的大模型测试验证与协同创新中心牵头,首次面向全国范围征集全行业优秀应用实践,并形成《2023 大模型落地应用案例集》(以下简称'《案例集》')。
作为首部聚焦落地应用的权威研究成果,《案例集》全面展示了大模型前沿技术和发展成果,推动了大模型为代表的人工智能技术赋能社会经济高质量发展。经专家组的多轮评审,共 52 个各自领域的典型大模型技术落地应用成功入选。
2022 年底 ChatGPT 的横空出世,引爆了国内外大模型的热情,各行各业的创业者已经集结在十字路口蓄势待发。
从国内市场来看,目前人工智能(AI)大模型已经在各行各业'落子不断'。据公开资料不完全统计显示,国内大模型的发展路径是'通用 + 垂直'两条腿走路,其中垂类大模型落地速度最快。《案例集》显示,有近 65%+ 的 AI 大模型是垂直大模型。
趋势已然,大模型技术突破代表了 AI 发展的一个重要里程碑,下面笔者将梳理中国从业者构建的'底层原创技术 - 中层基础模型 - 上层行业应用'的大模型图鉴。
大模型领域中国学者的技术贡献
2016 年,来自微软亚洲研究院的四位学者提出深度残差学习(ResNet),解决了深度网络的梯度传递问题。要知道,2015 年之前深度学习最多只能训练 20 层,ResNet 之后,就可以有效地训练超过百层的深度神经网络。
2017 年 Google 发布 Transformer,它的出现打稳了 AI 大模型的'地基',不仅'颠覆'了自然语言处理(NLP)中的机器翻译任务,而且还提供了一种新的思路来处理图像数据。
中国学者也围绕 Transformer 做了许多改进和完善,例如微软亚洲研究院联合西安交通大学推出 LONGNET,将 Transformer 的序列长度扩展 10 亿+;京东探索研究院联合武汉大学提出全球首个面向遥感任务设计的亿级视觉 Transformer 大模型;阿里达摩院提出新的 Transformer 结构 FMViT,大幅度提升 AI 模型精度与速度……
在大模型领域细数中国学者贡献,许多原创性贡献来自本土。已故的商汤科技创始人汤晓鸥在 2023 世界人工智能大会上,发表演讲时表示:在深度学习的大门上,我们按了 18 次门铃,取得了许多跨时代的突破。其中汤晓鸥提到了上海人工智能实验室领军科学家林达华,他当时设计的计算机视觉开源算法体系 OpenMMLab,目前已经成为国际上最具影响力的视觉算法开源体系。值得一提的是,林达华也是书生大模型体系的重要贡献者。
京东探索研究院早在 2021 年年初就展开了大模型体系(超级深度学习)的建设和基础研究,领导京东建设了中国第一个 NVIDIA DGX Superpod 天琴 alpah-α超算集群。在此基础上,京东探索研究院的织女模型 vega v2 在 2022 年登顶 SuperGLUE 榜首,一举超越同场竞技的谷歌、微软、Meta 等业界顶尖企业;2021 年研究院开发的大规模视觉模型 ViTAE,在 ImageNet Real 的目标识别和 MS COCO 的人体姿态估计等权威榜单上均获得世界第一。
因此,国内公司的 AI 大模型研发虽然比国外公司晚,但是发展却异常地迅速,其内在逻辑便是:本土企业和学者对深度学习技术的深入理解与创新。在大模型的底层技术已经固定的时代,他们靠着持续的探索和努力才能构建出秀丽的'上层建筑'。
在 OpenAI 发布 ChatGPT 之前,国内的一些企业就已经押注 AI 大模型技术:例如 2021 年 4 月,华为云联合循环智能发布盘古超大规模预训练语言模型,参数规模达 1 000 亿;2021 年 6 月,北京智源人工智能研究院发布了超大规模智能模型'悟道 2.0',参数规模达到 1.75 万亿;2021 年 12 月,百度推出 ERNIE 3.0 Titan 模型,参数规模达 2 600 亿,同期,阿里巴巴达摩院的 M6 模型参数达到 10 万亿,将大模型参数直接提升了一个量级。
到 2023 年,大模型继续火热,国内的 AI 大模型团队已逐渐拓展到视觉、决策领域,甚至用于解决蛋白质预测、航天等领域的重大科学问题,阿里、京东、oppo 等大厂都有相应的成果。
大模型应用拐点已至
图灵奖获得者 Yann LeCun 说过:AI 大模型的技术都是公开的,算不上底层技术上的创新,如果你愿意一探究竟的话,可以发现它背后没有任何秘密可言。
但借着这些'过时'的技术,在中国拥有庞大的人才基数和数据集的情况下,可以发展出更适合本土环境和语境的大模型。
那么如何形象理解大模型?前科技部长王志刚从高维度表示,大模型,就是大数据、大算力、强算法。形象一些:大模型事实上就是算法、数据、算力上的有效结合。传统巨头在大模型领域的技术投入普遍都是在积极防御,而中国企业在非常积极地推动向应用中的落地。
目前,业界除了把 AI 大模型商业落地模式统分为 toB 和 toC 之外,在市场划分上则遵循通用与垂直两大路径,两者在参数级别、应用场景等方面差异正在显性化。
通用大模型往往是指具备处理多种不同类型任务的 AI 模型,这些模型通常是通过大规模的数据训练而成,能够在多个领域和应用中表现出良好的效能。大家耳熟能详的几个通用大模型均来财力雄厚的企业:
-
书生浦语开源大模型:由上海人工智能实验室研发,涵盖 70 亿参数的轻量级版本 InternLM-7B,以及 200 亿参数的中量级版本和 InternLM-20B,以及完整的开源工具链体系。InternLM-7B 在包含 40 个评测集的全维度评测中展现出卓越且平衡的性能,它在两个被广泛采用的基准 MMLU 和 CEval 上分别取得了 50.8 和 52.8 的高分,开源一度刷新了 7B 量级模型的纪录。
-
昆仑万维天工大模型:'天工'是一个 AI 搜索引擎,一个对话式 AI 助手。'天工'拥有强大的自然语言处理和智能交互能力,能够实现个性化 AI 搜索、智能问答、聊天互动、文本生成、编写代码、语言翻译等多种应用场景并且具有丰富的知识储备,涵盖科学、技术、文化、艺术、历史等领域。


