跳到主要内容 2026 年 2 月 AIGC 行业模型发布与前沿资讯 | 极客日志
编程语言 AI 算法
2026 年 2 月 AIGC 行业模型发布与前沿资讯 2026 年 2 月 AIGC 领域迎来多家公司模型更新。阿里发布 Qwen3.5 系列及编程模型,智谱开源 GLM-5,蚂蚁集团推出 Ling-2.5-1T 及全模态模型。字节跳动发布 Seedance 2.0 视频模型及豆包大模型 2.0。OpenAI 更新 GPT-5.2 系列,Google DeepMind 发布 Lyria 3 音乐模型。此外还有 MiniCPM-o 4.5、Step 3.5 Flash、Thinker 具身智能模型等多款开源或闭源模型发布,涵盖代码、视觉、语音及 Agent 能力。
JavaCoder 发布于 2026/4/6 更新于 2026/4/16 6 浏览1. 阿里 Qoder 发布 Qwen-Coder-Qoder
阿里 AI 编程工具 Qoder 正式发布专为自身平台打造的强化学习模型 Qwen-Coder-Qoder。该模型基于 Qwen-Coder 基座,紧密结合其 Agent 框架与工具,通过自研的 ROLL 训练框架进行大规模强化学习,旨在提升端到端的编程体验。
在面向真实软件工程任务的 Qoder Bench 评测中,该模型的任务解决率已超越 Cursor Composer-1,尤其在 Windows 系统下,其终端命令准确率领先幅度达到 50%。在实际线上应用中,该模型已将代码留存率提升了 3.85%,工具异常率降低了 61.5%,Token 消耗下降了 14.5%。
Qwen-Coder-Qoder 的设计遵循资深开发者思维模式,核心特性包括:严格遵守软件工程规范、具备项目全局感知能力、可高效并行处理无依赖任务,以及持续解决复杂问题的韧性。其研发基于'模型即 Agent'的智能进化体系,技术实现依赖三大要素:在真实 Agent 沙盒环境中学习、引入软件工程最佳实践作为奖励信号并通过'Rewarder - Attacker'对抗机制防止模型作弊,以及利用 ROLL 框架实现数千卡集群上 10 倍以上的训练吞吐提升。
目前,Qwen-Coder-Qoder 已在产品中正式上线。
2. Kimi 与南大发布 SimpleSeg 赋能模型像素感知 Kimi Team 联合南京大学发布 SimpleSeg,通过将图像分割任务重构为序列生成问题,赋予多模态大语言模型(MLLM)原生像素级感知能力。该方法使模型直接在语言空间内预测物体边界的坐标点序列,采用 SFT 监督微调与基于 IoU 奖励的强化学习两阶段训练提升轮廓精度。
官方表示,SimpleSeg 在标准 MLLM 架构下无需任何专用模块,性能在多个分割基准测试中达到或超越复杂专用算法。其具备简单性、任务通用性及可解释输出三大核心优势,目前已基于 Kimi-VL 和 Qwen2.5-VL 实现模型应用。
3. 字节研究团队发布 ConceptMoE 提升 AI 推理 ByteDance 研究团队发布 ConceptMoE 架构,通过可学习的自适应块化技术,将大语言模型处理从 Token 级别提升至概念级别。该架构利用可学习的 Chunk 模块识别最优边界,动态合并语义相似的 Token 序列为统一概念表示,实现隐式计算分配,对可预测序列进行压缩,对复杂 Token 则保留精细化计算,从而在不改变模型参数与计算量的前提下显著提升性能。
4. 阶跃星辰发布并开源模型 Step 3.5 Flash 阶跃星辰发布新一代开源基座模型 Step 3.5 Flash,专为 Agent 场景设计。该模型采用 196B 总参数(激活 11B)的稀疏 MoE 架构,支持 256K 上下文,并利用 MTP-3 技术在单请求代码任务中实现最高 350 TPS 的推理速度。
在性能上,该模型在数学推理、代码和智能体任务上逼近顶级闭源模型。官方数据显示,开启 Parallel Thinking 后,其在 AIME、IMOAnswerBench 等数学竞赛和 BrowseComp 等智能体基准测试中表现领先,代码能力则逼近 Gemini 3.0 Pro。
核心能力方面,模型具备'Think-and-Act'协同机制,支持大规模工具编排,能通过单 Agent 循环生成万字研究报告。它还支持端云协同模式,可作为'云端大脑'与本地 Step-GUI 协作,完成跨 App 价格对比、操作手机微信等复杂任务。
模型已完成对华为昇腾等六大国产 AI 芯片的适配,支持在 Apple M4 Max 等高端个人硬件上私有部署。其训练采用了可扩展的强化学习框架 MIS-PO,用于解决长序列训练中的稳定性问题。官方指出模型在生成轨迹长度等方面仍存不足,并已启动下一代 Step 4 模型的训练。
5. 智谱发布并开源 OCR 模型 GLM-OCR 智谱正式发布轻量级专业 OCR 模型 GLM-OCR,参数规模为 0.9B。该模型基于 GLM-V 编码器 - 解码器架构构建,在 OmniDocBench V1.5 评测中以 94.62 分登顶,并在表格、公式识别及信息提取等主流基准中达到 SOTA 水平。
在架构上,GLM-OCR 采用自研 CogViT 视觉编码器与 GLM-0.5B 语言解码器,引入 Multi-Token Prediction 损失函数和全任务强化学习以提升效率。关于其参数规模,官方文档明确标注为 0.9B;据社区讨论认为,其视觉与语言部分总计约 1.4B。性能方面,官方数据显示 GLM-OCR 处理 PDF 文档的吞吐量达 1.86 页/秒,其表现优于多款 OCR 专项模型,性能接近 Gemini-3-Pro。
该模型针对复杂表格、代码文档、印章等真实场景优化,支持中、英、法等多种语言的通用文本识别。在输出上,可直接从合并单元格、多层表头等表格解析出 HTML 代码,或从卡证票据中提取关键字段并输出标准 JSON 格式,为 RAG 等应用提供支持。
GLM-OCR 已在 Hugging Face 开源并提供 API 服务,模型本身遵循 MIT License。API 输入与输出同价,均为 0.2 元/百万 Tokens。
6. xAI 正式发布 Grok Imagine 1.0 视频模型 xAI 正式发布 Grok Imagine 1.0,实现从静态图像到动态高清视频生成的跨越。新版本支持生成最长 10 秒、720p 分辨率的视频,音频质量与提示词理解能力显著提升。该版本已在 Grok 应用及 API 全面上线。
7. 优必选开源具身智能大模型 Thinker 优必选发布并开源具身智能大模型 Thinker,定位'小参数、高性能、全开源',为工业人形机器人提供精准空间感知与快速响应的'大脑'。截至 2026 年 1 月 30 日,Thinker 在 10B 以下参数规模的 9 项具身智能基准评测中位列全球第一。
其全链路数据方案通过'精炼提纯 - 自动化标注 - 数据驱动训练',将 20B 原始数据提纯至 10M 高质量数据(仅保留约 1%),人工参与率降至 1% 以下,标注成本降低 99%,并打通真实场景数据回流机制。基于此,Walker S2 机器人在搬运分拣场景作业准确率达 99.99%。目前,Thinker 模型权重、训练工具链及优化指南已全量开放。
8. 通义千问发布开源编程模型 Qwen3-Coder-Next Qwen 团队发布开源权重语言模型 Qwen3-Coder-Next,专为编程 Agent 与本地开发设计。该模型基于 Qwen3-Next-80B-A3B-Base 构建,采用混合注意力与稀疏 MoE 架构,总计 800 亿参数,但每个 token 仅激活 30 亿参数,旨在显著降低推理成本。
据官方介绍,该模型的核心突破在于'大规模智能体训练',而非单纯依赖参数扩展。其训练包含持续预训练、监督微调、领域专精的专家训练及能力蒸馏等阶段,利用约 80 万个可验证任务与可执行环境,让模型从反馈中学习,重点强化了长程推理、工具使用与失败恢复能力。
在性能表现上,官方数据显示,该模型在使用 SWE-Agent 框架时,在 SWE-Bench Verified 基准上得分达 70.6%,在更具挑战性的 SWE-Bench-Pro 上得分为 44.3%。官方称这一表现可与激活参数量高 10 到 20 倍的模型相当,优于 DeepSeek-V3.2(671B)和 GLM-4.7(358B)等更大模型。
9. OpenAI 宣布 GPT-5.2 系列模型提速 40% OpenAI 宣布其 GPT-5.2 与 GPT-5.2-Codex 模型提速 40%。此次更新通过优化推理堆栈实现,已面向所有 API 客户开放。在不改变模型与权重的前提下,该改进显著降低了请求延迟,提升了开发者体验。
10. OpenBMB 发布多模态模型 MiniCPM-o 4.5 OpenBMB 发布了 9 亿(9B)参数的多模态大语言模型 MiniCPM-o 4.5。该模型支持全双工多模态实时交互,能够同步处理视觉、语音和文本输入并生成输出。官方数据显示,模型在 OpenCompass 基准测试中平均得分 77.6,其视觉语言能力超越了 GPT-4o 和 Gemini 2.0 Pro,接近 Gemini 2.5 Flash 水平。
MiniCPM-o 4.5 引入全双工多模态直播能力,可端到端并行处理视频、音频输入流与文本、语音输出流,实现流畅的实时对话,并支持基于理解的主动交互。语音方面,它支持中英双语实时对话和语音克隆,官方数据显示其语音性能优于 CosyVoice2 等工具,中文测试 CER 为 0.86%,英文 WER 为 2.38%。
视觉理解方面,模型在 MathVista 和 MMBench 英文版测试中得分分别为 80.1 和 87.6,能高效处理高达 180 万像素的图像与高帧率视频,并在 OmniDocBench 文档解析任务中取得最佳性能。文本能力上,模型在多项基准中平均得分 82.1,数学解题(GSM8K)得分 94.5。
该模型基于 SigLip-2、Whisper-medium、Qwen3-8B 等构建,采用 Apache-2.0 许可证开源。模型支持通过 llama.cpp、Ollama 等框架在本地设备部署。
11. ACE Studio 与 StepFun 联合发布开源音乐模型 ACE-Step 1.5 ACE Studio 与 StepFun 联合团队发布了开源音乐生成基础模型 ACE-Step 1.5。该模型采用 MIT 许可证,支持本地运行与商业用途。
官方数据显示,该模型在 A100 上生成一首完整歌曲快至 2 秒,在 RTX 3090 上快至 10 秒,运行 VRAM 少于 4GB。其核心为一种新颖的混合架构,语言模型 (LM) 作为'全能规划器',通过思维链 (Chain-of-Thought) 生成完整歌曲蓝图以指导 Diffusion Transformer(DiT) 进行音乐创作。据官方博客,其生成质量超越多数商业模型,介于 Suno v4.5 与 v5 之间。
ACE-Step 1.5 功能全面,支持 10 秒至 10 分钟的灵活时长生成、参考音频引导、翻唱、音频编辑、音轨分离及多轨生成,并兼容 50 多种语言歌词与千余种乐器风格。用户可利用内置的 LoRA 技术,仅需几首歌曲即可训练个人风格。模型能根据 GPU VRAM 容量自动选择最优 LM 模型。
12. Ai2 发布轻量级开源编码模型 SERA-14B 艾伦人工智能研究院 (Ai2) 发布 140 亿参数开源编码模型 SERA-14B,在 SWE-bench Verified 基准测试中获 41.7% 得分 (±0.5%)。模型基于 Qwen 3-14B,采用 GLM-4.6 为教师模型,通过 Soft Verified Generation 方法在 32K 上下文、25000 条合成轨迹上训练,数据源自 121 个 Python 代码库。训练数据集已更新为通用格式并新增验证阈值和元数据。模型采用 Apache 2.0 许可证在 Hugging Face 开源。
13. 上海 AI 实验室推出万亿参数多模态科学推理模型 Intern-S1-Pro 上海 AI 实验室发布 Intern-S1-Pro,一个 1 万亿参数 MoE 多模态科学推理模型(512 专家,激活 22B),专注 AI4Science 领域。模型在化学、材料、生命科学等基准测试中达到领先水平,可媲美国际闭源模型。
技术架构采用 STE 路由、分组路由机制及 Fourier Position Encoding,支持 100 至 106 点的长异构时间序列。模型兼容 OpenAI API,具备 Tool Calling 能力,thinking 模式可动态配置。支持 LMDeploy、vLLM、SGLang 框架部署。权重已上传 Hugging Face,代码和技术报告(arXiv:2508.15763)同步发布。
14. Mistral AI 开源 40 亿参数实时语音模型 Voxtral Mini 4B Realtime 2602 Mistral AI 发布了名为 Voxtral Mini 4B Realtime 2602 的多语言实时语音转录模型,该模型以低于 500 毫秒的延迟实现了接近离线系统的转录准确率,并采用 Apache 2.0 许可证开源。这个拥有 40 亿参数的模型采用原生流式架构,针对语音助手、实时字幕等场景及设备端部署进行了优化。
此外,Mistral AI 还介绍了用于批量转录的 Voxtral Transcribe 2 模型系列。据官方说明,该模型在 FLEURS 数据集上实现了 4% 的 WER,定价为每分钟 0.003 美元,并具备说话人日志、上下文偏置等功能。
15. 快手可灵发布可灵 3.0 快手可灵正式发布 3.0 版本产品套件,包含视频 3.0、图片 3.0 及其对应的 Omni 增强版。核心升级包括视频生成时长延长至 15 秒、强化主体一致性、支持原生 2K/4K 图像输出,旨在覆盖从生成到编辑的全链路创作流程。
视频 3.0 系列支持 3 至 15 秒的灵活时长。其智能分镜功能可深度理解剧本,自动调度景别与机位以生成电影感叙事。在图生视频基础上新增的主体参考能力,允许用户添加图片或视频,二次锚定主角、道具与场景。全能音画功能支持中、英、日、韩、西等多语种及地道方言,实现多语混合对话时的口型与神态匹配。增强版视频 3.0 Omni 的全能主体 3.0 分为两部分:一是支持上传 3 至 8 秒角色视频创建主体,二是支持'多图 + 音频'为角色绑定专属声线。分镜叙事 3.0 则新增了原生自定义分镜能力与像素级画面修改。
图片 3.0 Omni 版聚焦专业级视觉输出。深度叙事功能可解构提示词中的视听元素,生成包含特定光影、色调的影视级画面。组图创作支持批量生成系列组图,并可统一优化风格或根据单张图片预测剧情生成分镜。原生超清功能允许直接输出 2K 或 4K 图像。标准版图片 3.0 的强化主要围绕一致性与编辑灵活性,支持用户使用最多 10 张参考图锁定核心元素与色调,并整合多来源参考能力于同一界面,提升了人像真实感和电影级色调。
16. Meta AI 发布 EB-JEPA 开源库 Meta AI Research 发布 EB-JEPA 开源库,为社区提供 Joint Embedding Predictive Architectures 示例。库包含三个核心模块:Image JEPA 用于 CIFAR-10 图像自监督学习,Video JEPA 预测视频序列下一帧表示,Action-Conditioned Video JEPA 支持动作条件世界建模与规划。
配套论文显示,CIFAR-10 探测准确率达 91%,Two Rooms 导航任务规划成功率 97%。库支持单 GPU 训练,集成 Weights & Biases 跟踪实验,使用 uv 包管理,需用 autoflake、isort 和 black 格式化代码。项目采用 Apache-2.0 许可证,论文作者包括 Yann LeCun 等。
17. 阿里 Qwen 构建 SWE-Universe 训练框架 阿里巴巴 Qwen 团队与浙江大学合作提出 SWE-Universe 框架,旨在从 GitHub Pull Requests (PRs) 中自动构建百万级可执行的软件工程训练环境,以解决 AI 编程助手训练数据缺乏真实可验证场景的问题。
该框架通过构建智能体实现自动化,已成功构建 807,693 个环境,并助力 Qwen3-Max-Thinking 模型在 SWE-Bench Verified 测试集上达到 75.3% 的准确率。
18. 腾讯混元推出 HPC-Ops 推理算子库 腾讯混元 AI Infra 团队推出开源生产级高性能 LLM 推理核心算子库 HPC-Ops。该算子库基于 CUDA 和 CuTe 从零构建,通过微架构深度适配与指令级优化,旨在降低开发门槛并逼近硬件性能峰值。
HPC-Ops 包含 FusedMoE、Attention 等核心融合算子,已在腾讯大规模生产环境验证,提供 API 以无缝对接 vLLM、SGLang 等主流框架,并原生支持 BF16、FP8 等多精度方案。项目已在 GitHub 开源。
19. 字节跳动开源 AI Agent 上下文数据库 字节跳动火山引擎 Viking 团队开源 OpenViking,一个专为 AI Agent 设计的上下文数据库。该项目摒弃传统 RAG 平铺式向量存储,创新采用'文件系统范式',将 Agent 的记忆、资源与技能统一组织在 viking://虚拟文件系统中,通过 ls、find 等指令管理。
核心特性包括:L0 摘要/L1 概述/L2 详情三层结构实现按需加载,降低 Token 成本;目录递归检索融合意图分析与递归下探,提升检索全局性与准确性;提供可视化轨迹与自动会话管理实现上下文自迭代。项目采用 Apache License 2.0 协议。
20. 美团推出 LongCat-Flash-Lite 模型 美团龙猫团队推出 LongCat-Flash-Lite 大模型,这是一款采用全新嵌入扩展范式的轻量化 MoE 模型。该模型总参数量为 685 亿,通过动态激活机制,每次推理仅需激活 29 亿至 45 亿参数。LongCat-Flash-Lite 聚焦于 Agent 与代码领域,支持基于 YARN 技术的 256K 超长上下文处理,目前已开放模型权重、推理引擎部分源代码及 API 接入服务。
在架构设计上,该模型创新性地引入了 N-gram 嵌入层,将 31.4 亿参数(约占 46%)投入到嵌入扩展中。该设计通过哈希函数将 token 序列映射为整体嵌入向量,并采用子表分解等技术降低哈希冲突。同时,模型引入嵌入放大技术,确保信号在深层网络中有效传递。
系统级优化方面,团队实现了从模型结构到运行时的垂直加速。针对 N-gram 嵌入层特性,设计了专用的 GPU 缓存机制以降低延迟。在算子层面,开发了定制 CUDA 内核并进行内核融合,同时支持 3 步投机推理。在输入 4K、输出 1K 的典型负载下,其 API 生成速度可达 500-700 token/s。
性能评估显示,LongCat-Flash-Lite 在多项基准测试中表现优异。在智能体任务τ²-Bench 中取得高分,代码任务 SWE-Bench 准确率为 54.4%。通用能力方面,MMLU 得分 85.52,中文理解 C-Eval 为 86.55 分,数学能力 MATH500 准确率达 96.80%。
目前,LongCat-Flash-Lite 模型权重已在 Hugging Face 与 Modelscope 开放下载,推理引擎部分功能与算子在 GitHub 开源。开发者可通过 API 平台申请接入,现阶段提供不限额试用,后续将维持每日 5000 万 tokens 的免费额度。
21. 字节跳动发布视频生成模型 Seedance 2.0 Seedance 2.0 正式上线,推出支持图像、视频、音频、文本四种模态输入的视频生成功能。其核心特性「参考能力」允许用户上传参考图像以还原画面构图与角色细节,或通过参考视频复刻镜头语言、动作节奏与创意特效。系统支持对生成视频进行平滑延长、衔接以及角色更替、内容增删等编辑操作,生成长度可在 4 至 15 秒间自由配置。
在输入限制方面,系统规定混合输入总上限为 12 个文件,包括不超过 9 张图像、总时长不超过 15 秒的 3 个视频,以及总时长不超过 15 秒的 3 个 MP3 格式音频文件。文本输入则采用自然语言描述,输出视频默认自带音效与配乐。
系统提供「首尾帧」与「全能参考」两种交互入口。「首尾帧」适用于仅需上传首帧图结合提示词的简单场景;「全能参考」则支持四类素材的任意组合输入。在「全能参考」模式下,用户可通过@素材名语法指定素材用途,或通过参数工具栏的@图标唤起选单。需要注意的是,智能多帧与主体参考功能在当前版本不可用。
在能力提升方面,Seedance 2.0 攻克了物理规律合理性、动作自然流畅性、指令理解精准度及风格稳定性等难题,能稳定完成复杂动作与连续运动生成任务,并在人脸、服装、字体及场景细节一致性上实现了显著提升。
22. OpenRouter 与 Kilo Code 上线 Pony Alpha 模型 OpenRouter 与 Kilo Code 同步上线了 stealth 模型 Pony Alpha,定位为支持 coding、agentic workflows 与 reasoning 的下一代基础模型。该模型提供 200K tokens 上下文窗口与 131K tokens 最大输出,通过两家平台以零费率提供。
模型来源暂未正式披露,Kilo Code 将其描述为来自'global lab'的'beloved open-source models'的 specialized evolution。对此,部分讨论认为该模型或为智谱(zAI)即将发布的 GLM-5,但此说法未经官方证实。
23. Waymo 推出 Waymo World Model Waymo 推出 Waymo World Model,基于 Google DeepMind 的 Genie 3 构建,用于大规模超真实自动驾驶仿真。该系统生成高保真、多传感器输出,同步包含 camera 图像与 lidar 点云,支持通过自然语言、驾驶输入及场景布局调整进行精细控制。
Waymo Driver 已积累近 2 亿英里全自动驾驶里程,并在此模型驱动的虚拟世界中完成数十亿英里训练,以在实际道路遭遇前掌握复杂罕见场景。
24. 千问推出 Qwen-Image-2.0 统一图像模型 千问大模型团队推出新一代图像生成基础模型 Qwen-Image-2.0。该模型统一了图像生成与编辑能力,支持 2K 分辨率输出与 1k token 超长指令输入。目前已在阿里云百炼平台开放 API,并可通过 Qwen Chat 免费体验。
Qwen-Image-2.0 的核心能力集中在专业文字渲染、真实质感表现与语义遵循。文字渲染方面,可精准处理中英双语信息图,并支持 1k token 复杂指令。模型原生支持 2048×2048 分辨率,可刻画超 23 种绿色植被的材质与光影,并在多介质上维持文字真实感。同时,模型可生成多子图漫画,保持角色一致性。
作为统一的 Omni 模型,其编辑功能支持在图片上添加书法题词、生成九宫格多姿势组图与双人自然合成,还可在保持真实照片主体的前提下添加卡通形象,并支持指定等效镜头与光圈等参数。
技术架构上,Qwen-Image-2.0 由 8B Qwen3-VL 编码器与 7B 扩散解码器组成,体积较前代 20B 模型显著减小,推理更快。团队通过提升 VAE 重构能力与增强密集小字建模,解决了文字渲染崩坏问题,而生图与编辑的训练也相互促进。
据 AI Arena 盲测基准,Qwen-Image-2.0 文生图得分 1029 排名第三,图片编辑得分 1034 排名第二。对比测试显示,其在长指令遵循与文字渲染上优于部分竞品,但在超现实场景的真实感上略逊一筹。
模型当前仅通过 API 提供,权重未开源,有传言称或于春节后开源。
25. MOSI.AI 与 OpenMOSS 发布 MOSS-TTS 家族 MOSI.AI 与 OpenMOSS 团队将于 2026 年 2 月 10 日发布开源语音与声音生成模型家族 MOSS-TTS,采用 Apache-2.0 许可证。该家族设计面向高保真、高表现力及复杂真实世界场景,包含五个可独立或组合使用的生产级模型。
该家族由五大核心模型构成:旗舰 MOSS-TTS 提供 MossTTSDelay(8B 参数,侧重长上下文稳定与速度)和 MossTTSLocal(1.7B 参数,侧重轻量化)两种架构,支持高保真零样本克隆与长文本生成;MOSS-TTSD v1.0 专用于生成高表现力的多说话人超长连续对话;MOSS-VoiceGenerator 可直接从文本指令生成多样化音色;MOSS-TTS-Realtime 是为实时语音智能体设计的多轮上下文感知模型;MOSS-SoundEffect 则专用于内容创作的可控音效生成。
整个家族的性能基于统一的 1.6B 参数 MOSS-Audio-Tokenizer。该组件基于 Cat 架构,在 300 万小时音频数据上训练,能将 24kHz 音频高效压缩至 12.5Hz,其重建质量在可比较比特率范围内据评测领先于其他开源方案。
性能方面,在开源基准 Seed-TTS-eval 上,MossTTSLocal 的英文词错误率(WER)与中文相似度(SIM)分别为 1.85% 和 78.82%。MOSS-TTSD v1.0 的中文说话人相似度(SIM)达 0.7949,切换准确率(ACC)为 0.9587,主观评测中其综合表现优于 Doubao 及 Gemini 2.5-pro 等部分闭源模型。
26. 蚂蚁集团发布 LLaDA2.1 扩散大语言模型 蚂蚁集团推出名为 LLaDA2.1 的扩散大语言模型,提供 16B 参数的 Mini 和 100B 参数的 Flash 两个版本。该模型核心是集成 Error-Correcting Editable (ECE) 引擎的 Token-to-Token 编辑机制,区别于传统自回归方式。该机制允许模型在生成中实时修正 token。
LLaDA2.1-Flash 为 100B 参数的语言扩散 MoE 模型,根据官方信息,这是首个应用于 100B 参数量级扩散模型的大规模强化学习 (RL) 框架。性能方面,在复杂编码任务中,LLaDA2.1-Flash 推理速度可达 892 tokens/sec。
目前,LLaDA2.1 的模型权重、技术报告与源代码已发布在 HuggingFace 和 GitHub 上。
27. 腾讯混元发布 HY-1.8B-2Bit 端侧量化模型 腾讯混元推出面向消费级硬件的 HY-1.8B-2Bit 模型,该方案基于产业级 2Bit 端侧量化技术。模型通过对 Hunyuan-1.8B-Instruct 进行量化感知训练(QAT)产出,等效参数量为 0.3B,内存占用 600MB,文件大小仅 300MB。在真实端侧设备上,其生成速度相较原始精度模型提升 2 至 3 倍,并完整保留了其全思维链推理能力及 Dual-CoT 策略。该模型目前已开源,适配支持 Arm SME2 技术的计算平台。
技术上,为避免传统后量化(PTQ)在低比特量化下的严重精度损失,混元团队采用了量化感知训练(QAT),并结合数据优化、弹性拉伸量化及训练策略创新提升模型能力。基准测试显示,与全精度 1.8B 教师模型相比,HY-1.8B-2Bit 在八个主流数据集上的平均性能下降 3.97%;与 INT4 量化版本相比,准确率差距仅 0.13%。在与空间相当的 0.5B 模型对比中,该模型在 GSM8K 和 LiveCodeBench 数据集上分别高出 22.29% 和 20.62%。
在真实设备测试中,HY-1.8B-2Bit 在 MacBook M4 上,对比 fp16 及 Q4 格式,首字时延实现 3 至 8 倍加速,生成速度稳定提升超 2 倍。在天玑 9500 芯片上,对比 Q4 格式,首字时延与生成速度均实现约 1.5 倍的加速。
该模型当前部署存在明确限制,仅支持配备 Arm SME2 技术的设备,如 Apple M4、vivo x300 等,其依赖于 llama.cpp 的特定分支运行。模型能力亦受限于其监督微调(SFT)的训练流程与基础模型自身性能。项目代码及权重已开源,采用 License for AngelSlim。未来团队将重点发展强化学习与模型蒸馏,以缩小低比特模型与全精度模型的能力差距。
28. 智谱 AI 发布并开源 GLM-5 模型 智谱上线并开源 GLM-5,定位为面向复杂系统工程和长程 Agentic 任务的基座模型,在 Coding 与 Agent 能力上取得开源 SOTA 表现,依据在 Artificial Analysis 的榜单,GLM-5 位居全球第四、开源第一。
GLM-5 的基座模型扩展了参数规模,从 GLM-4.5 的 355B(激活 32B)提升至 744B(激活 40B),预训练数据从 23T 增加到 28.5T tokens。模型集成了 DeepSeek Sparse Attention(DSA),以在维持长文本能力的同时降低部署成本。上下文长度为 200K,最大输出为 128K。GLM-5 开发了名为 slime 的异步强化学习框架,通过异步智能体强化学习算法使模型能从长程交互中学习,提升强化学习后训练流程效率。
在编程能力方面,GLM-5 在 SWE-bench-Verified 中获得 77.8 分,在 Terminal Bench 2.0 中获得 56.2 分,均为开源模型 SOTA。在内部 Claude Code 评估集合中,GLM-5 在前端、后端、长程任务等编程开发任务上超越 GLM-4.7 平均超过 20%。
Agent 能力上,GLM-5 在 BrowseComp(联网检索与信息理解)、MCP-Atlas(工具调用和多步骤任务执行)和τ²-Bench(复杂多工具场景下的规划和执行)均取得开源模型最佳表现。
GLM-5 支持华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配,通过底层算子优化与硬件加速实现高吞吐、低延迟的稳定运行。GLM-5 在本地部署支持 vLLM、SGLang 和 xLLM 推理框架。模型提供 BF16 和 FP8 两个精度版本。
GLM-5 权重在 Hugging Face 与 ModelScope 平台同步开源,遵循 MIT License。模型在智谱 Max 用户套餐中已可用,Pro 用户套餐计划在 5 天内支持,后续也会为 Lite 用户提供支持。
GLM Coding Plan 同步升级提供 GLM-5 相关功能:官方适配 OpenClaw,可快速配置 Agent 工作流;Pro 和 Max 用户限量赠送 AutoGLM-OpenClaw,支持将云端个人 AI 助手接入飞书;新增 GLM in Excel 权益,提供原生适配 Excel 环境的 AI 插件,Beta 期仅 Max 用户可享套餐抵扣。
29. DeepSeek 上线 1M 上下文窗口新模型 DeepSeek 在其最新 App 与网页端上线了一款新模型。该模型核心升级包括:上下文窗口上限提升至 1M token,长上下文场景下的表现突出;整体响应速度有明显提升;知识库截止日期显示为 2025 年 5 月。新模型仍为纯文本模型,不支持多模态输入。目前官方尚未对该模型发布正式公告。
根据社交媒体上流传的非官方消息,该模型是一个总参数约 200B 的模型,或将命名为 V4 Lite,使用了 Muon 优化器和 mHC,但没有使用 Engram,相关消息还指出,DeepSeek 还有一个总参数超过 1T 的模型在训练中,但可能不会在 2 月发布。
30. MiniMax 上线 MiniMax M2.5 MiniMax 上线了其最新旗舰模型 MiniMax M2.5,现已开放访问。用户可通过 Web 端和桌面端的 MiniMax Agent 调用该模型。据官方相关人员 Skyler Miao 说明,M2.5 在研发过程中加大了训练计算量的投入,其模型性能随算力规模的增加而持续提升,将在后续正式发布。
31. OpenAI 更新 GPT-5.2 Instant 模型 OpenAI 已更新 GPT-5.2 Instant 模型,调整 ChatGPT 与 API 端的响应风格与质量。OpenAI CEO 称此次更新非重大版本迭代。
32. 蚂蚁集团发布全模态大模型 Ming-flash-omni 2.0 蚂蚁集团发布全模态大模型 Ming-flash-omni 2.0,基于 Ling-2.0 架构(100B-A6B MoE),聚焦专家级多模态认知、统一声学合成与高动态图像处理。模型已在 Hugging Face、ModelScope、GitHub 开源,可通过 Ling Studio 体验。
该模型可精准识别动植物、地标与文物;音频生成首创统一语音/音效/音乐,支持自然语言控制百余种音色;图像处理集成生成、编辑、分割及氛围重构。
技术上采用亿级数据 + 知识图谱、自研 12.5Hz 音频 Tokenizer、原生单流视觉架构。基准测试在 HallusionBench、MMvet、ChartQA 等多指标超越 Gemini 2.5 Pro,STEM 表现优于 Qwen3-Omini,语音识别生成准确率领先。
当前局限包括知识准确性、IP 内容识别与英文音色克隆,未来将优化视频理解、图像编辑与长音频实时性。
33. 科大讯飞推出讯飞星火 X2 大模型 科大讯飞推出基于全国产算力训练的讯飞星火 X2 大模型,采用 293B MoE 稀疏架构。据官方表述,其整体能力对标国际顶尖模型,多语言能力提升。讯飞星火 X2 的 API 已在讯飞开放平台上线,新注册开发者可获百万 Tokens 免费额度。
面向用户的星火 APP 更新至 5.2.0 版本,新增科研与求职助手,后者支持虚拟人 1:1 还原面试场景。讯飞星火 X2 现已在网页版和 APP 提供体验。
34. OpenBMB 发布 MiniCPM-SALA 百万上下文模型 OpenBMB 发布 MiniCPM-SALA 模型,首款大规模混合稀疏与线性注意力架构,在消费级 GPU(A6000D/RTX 5090)上支持 1M 令牌上下文推理。该 9B 参数模型采用 SALA 机制(25% 层用 InfLLM-V2,75% 用 Lightning Attention),结合 HyPE 位置编码与 HALO 优化技术,在 256K 序列下推理速度达 Qwen3-8B 的 3.5 倍。
通过 Transformer-to-Hybrid 继续训练,训练成本降低约 75%,同时保持通用能力相当并在长文本基准测试中表现更优。模型已在 Hugging Face 开源,兼容 SGLang 框架部署。
35. BOSS 直聘推出 Nanbeige4.1-3B 模型 BOSS 直聘 Nanbeige LLM Lab 发布开源模型 Nanbeige4.1-3B,探索单一小型通用模型能否同时具备强大推理能力、稳健偏好对齐与原生 Agent 行为。该 3B 参数模型在 LiveCodeBench-Pro、IMO-Answer-Bench、AIME 2026 I 等推理基准测试中表现显著;偏好对齐测试 Arena-Hard-v2 与 Multi-Challenge 分别获得 73.2 和 52.21 分;在 xBench-DeepSearch 及 GAIA 任务中展现深度搜索 Agent 能力。
支持最长 256k tokens 上下文,使其能在深度搜索场景中处理数百次工具调用,并对复杂问题执行单次超 10 万 tokens 的持续连贯推理。模型权重已在 Hugging Face 平台提供下载,详细技术报告即将发布。
36. Soul 推出 SoulX-Singer 歌声合成模型 Soul 旗下的 Soul-AILab 推出 SoulX-Singer,这是一款面向工业级部署的高质量开源歌声合成(Singing Voice Synthesis, SVS)系统。该系统旨在解决开源 SVS 在稳健性与零样本(Zero-Shot)泛化能力方面的瓶颈,支持在未见过的歌手音色上生成高保真的逼真歌声。
SoulX-Singer 引入了基于 MIDI 或旋律表示的可控生成机制,目前已在 GitHub 开源其代码,并在 Hugging Face 提供模型权重。
37. 智谱正式发布 AI 编程工具 Z Code 智谱正式发布 AI 编程工具 Z Code,整合 Claude Code、Gemini CLI 与 Codex 等工具,支持多 Agent 无缝切换。
Z Code 同时发布更新。新增内置浏览器支持网页访问、HTML 预览,并可将页面元素发送给 Agent。手机端远程控制功能允许用户通过二维码连接设备,实现跨设备协作。Multi-Agent Framework 支持用户在项目内于 Claude、Gemini 和 Codex 等不同 Agent 间无缝切换。此外,产品还支持 OpenAI、Anthropic、Google、DeepSeek、Bigmodel 等多个提供商。
38. MiniMax 正式开源 MiniMax-M2.5 MiniMax 正式开源其最新基础模型 MiniMax-M2.5,模型权重现已上线 Hugging Face 和 ModelScope 平台。该模型总参数规模达 230B,激活参数为 10B,许可协议采用 Modified-MIT。用户可利用 SGLang、vLLM 等多种主流框架实现模型的本地部署。
39. OpenAI 发布 GPT-5.3-Codex-Spark OpenAI 与 Cerebras 合作推出首个成果——实时编码模型 GPT-5.3-Codex-Spark,以研究预览形式向 ChatGPT Pro 用户开放。该模型运行于 Cerebras 超低延迟硬件,旨在提供超千 token/秒(>1000 tokens/s)的生成速度,支持用户进行实时协作编码。其设计为交互式工作,支持用户中断与重定向,并以近瞬时响应实现快速迭代。工作风格默认为轻量级、有针对性的编辑,与擅长长时自主运行的 GPT-5.3-Codex 形成互补,专注于处理日常编码任务。
在性能基准测试中:GPT-5.3-Codex-Spark 在 SWE-Bench Pro 上达到 51% 准确率需时 2.3 分钟;GPT-5.3-Codex 达到同水平需时 3 分钟,达到 57% 则需时 16 分钟。在 Terminal-Bench 2.0 中:GPT-5.3-Codex-Spark 得分 58.4%;GPT-5.3-Codex 得分 77.3%;其上代小模型得分为 46.1%。
目前,GPT-5.3-Codex-Spark 作为研究预览在 Codex 应用、CLI 及 VS Code 扩展内面向 ChatGPT Pro 用户开放。该模型仅支持文本输入,拥有 128k 上下文窗口,在独立速率限制下运行。
官方规划显示,此模型是迈向融合长时深度推理与实时迭代双模式 Codex 的第一步。未来计划引入更大模型、更长上下文及多模态输入。
40. 蚂蚁集团开源 Ring-2.5-1T 蚂蚁集团百灵团队发布了开源的万亿参数推理模型 Ring-2.5-1T,该模型基于混合线性注意力架构,旨在提升长上下文推理效率。通过架构升级,其在超过 32K token 的序列推理中实现了超 10 倍的内存访问开销降低和超 3 倍的生成吞吐量提升。此次调整后,模型的激活参数增至 63B,上下文长度通过 YaRN 技术从 128K 扩展到 256K。
在多个基准测试中,该模型表现突出。据团队自测结果,它在国际数学奥林匹克竞赛(IMO 2025)中获得 35⁄42 的得分,在中国数学奥林匹克竞赛(CMO 2025)中获得 105⁄126 的得分,均达金牌水平。此外,在 LiveCodeBench 和 SWE-Bench Verified 等代码与 Agent 任务上,该模型取得了开源领先成绩,并支持扩展思考过程的'重度思考模式'。
为增强长周期任务执行能力,Ring-2.5-1T 通过大规模全异步 Agent 强化学习(ASystem 引擎)进行训练。目前模型在 token 效率和指令遵循等方面仍有不足,训练仍在进行中。该模型采用 MIT 许可证开源,计划后续提供 API 服务与聊天体验页面。
41. 字节跳动正式发布视频创作模型 Seedance 2.0 字节跳动 Seed 团队发布视频创作模型 Seedance 2.0,采用多模态音视频联合架构,支持文字、图片、音频、视频四种输入,可混合输入 9 张图片、3 段视频、3 段音频及指令。模型具备视频编辑与延长功能,支持 15 秒高质量多镜头音视频输出及双声道立体声音频。在即梦 AI、豆包、火山方舟等平台已上线。
技术上,模型基于海量世界知识、稀疏架构及多模态联合训练。评测显示其在运动稳定性、指令遵循、画面美感及多模态参考理解方面表现突出,音频层次丰富,视听协同性增强。
当前局限包括:视频细节稳定性、拟真度待提升;音频多人口型匹配偶现失真;多主体一致性、复杂编辑效果需优化。使用真人形象需本人验证或授权。豆包平台暂不支持上传真人图片作为主体参考,生成时长为 5 秒或 10 秒。
42. 小米 MiMo 发布 MiMo-V2-Flash-0204 Xiaomi MiMo 更新了 MiMo-V2-Flash 模型至 0204 版本,核心围绕 Thinking 模式进行性能和效率升级。在代码能力上,模型于 SWE-Bench Verified 基准的评分提升至 78.6。工具调用准确率从 64% 大幅跃升至 97.0%,解决了稳定性问题。指令遵循与抗幻觉能力也得到加强,AA-Omniscience 基准下的非幻觉率提升至 52%,而 Arena-Hard (Hard Prompt) 评分提升至 60.6。
此次更新通过优化思维链策略降低了 Token 消耗。在 AIME25、HMMT 等基准测试中,平均生成长度缩减了 13% 至 30%,旨在保持模型效果的同时控制使用成本。
43. 阿里 AIDC-AI 开源多模态大模型 Ovis2.6-30B-A3B 阿里国际 AI 团队(AIDC-AI)发布并开源多模态大模型 Ovis2.6-30B-A3B,总参数 30B,推理仅激活 3B,支持 64K 上下文窗口与 2880×2880 图像分辨率。新功能'Think with Image'使模型能在推理中主动调用视觉工具进行多轮自我反思式分析,重点强化 OCR 与文档理解能力。权重托管于 Hugging Face,采用 Apache 2.0 许可证。
44. 小红书开源 FireRed-Image-Edit 模型 小红书开源通用图像编辑模型 FireRed-Image-Edit-1.0,模型包含四大核心能力:指令遵循(采用随机指令对齐机制,显著提升语义理解能力);文字编辑(基于 Layout-Aware OCR-based Reward 的强化学习机制,有效惩罚错别字与版面布局异常);创意生成(支持多参考图输入、风格迁移与融合创作);画质修复(集成超分、去模糊、去噪等多项图像增强功能)。
项目同步推出 REDEdit-Bench 评测基准,含 15 个子任务、1673 个中英编辑对,全面评估编辑模型性能。项目采用 Apache-2.0 许可证,后续将开源蒸馏版本与完整评测基准。
45. 小红书开源语音识别 FireRedASR2S 系统 小红书 FireRedTeam 于 2026 年 2 月 12 日发布工业级一体化 ASR 系统 FireRedASR2S,集成 ASR、VAD、LID、标点预测四模块,支持普通话、20+ 方言、英文、语码转换和歌词识别,性能达 SOTA。
ASR 模块 FireRedASR2 提供 LLM 版(CER 2.89%)和 AED 版(CER 3.05%),在普通话与方言测试中均优于 Doubao-ASR、Qwen3-ASR 等竞品。VAD 模块 F1 达 97.57%,支持 102 种语言;LID 多语言识别准确率 97.18%;标点预测 F1 为 78.90%。
模型权重与推理代码已发布至 Hugging Face 和 Modelscope,技术报告与微调代码将发布。VAD 和 LID 后续将独立开源。
46. 高德地图正式开源 FantasyWorld 世界模型 高德地图团队正式开源几何一致世界模型 FantasyWorld,单次前向传播即可从单张图片和相机轨迹同时生成视频与 3D 场景信息(深度图、点云、相机参数),无需逐场景优化。据官方称,该论文已被 ICLR 2026 收录,在 WorldScore 排行榜中位列第一。
开源包含基于 Wan2.1 的论文复现版和基于 Wan2.2 的高性能版,已上线 GitHub 和 ModelScope。技术核心为预调节模块、非对称双分支结构(想象先验分支 + 几何一致性分支)及两阶段训练策略,通过在视频生成模型内注入 3D 几何推理能力,解决传统模型空间不一致问题。产出可直接用于具身智能导航、自动驾驶仿真等任务。
47. 字节跳动发布豆包大模型 2.0 系列 火山引擎推出豆包大模型 2.0 系列,包含 Pro、Lite、Mini 三款通用模型及一款 Code 模型。该系列旨在通过多模态理解与高效推理能力,处理深度推理与长链路任务。
据官方介绍,Pro 定位旗舰全能模型,用于 Agent 时代复杂推理;Lite 为均衡型模型,其综合能力据称超越豆包 1.8;Mini 面向低时延与高并发场景,效果与豆包 1.6 相当;Code 模型专为编程场景优化。目前全系列模型 API 已在火山引擎上线,Pro 版已接入为豆包 App 的'专家'选项,Code 版已接入 TRAE 中国版并上线方舟 Coding Plan。
豆包大模型 2.0 Pro 强调多模态理解、长上下文推理与工具增强执行,其视觉感知、长视频连贯理解及高精度推理能力增强,适合复杂 Agent 任务。豆包大模型 2.0 Lite 适用于内容创作、数据分析等生产型工作,支持长上下文与多步指令。Mini 版支持 256k 上下文,在非思考模式下 tokens 消耗量可降至思考模式的 1⁄10,其在图像审核等任务上的识别能力显著提升。Code 模型则增强了代码与企业多语言编码能力。
该系列引入可配置参数,reasoning_effort 支持思考程度调节,Pro 模型在数学、视觉、视频理解、Agent 及多项权威基准评测中达到业界顶尖水平,部分评测据称超越 GPT5.2。
48. 京东开源 JoyAI-LLM-Flash 模型 京东集团探索研究院推出并开源基于 MoE 架构的中型指令语言模型 JoyAI-LLM-Flash,总参数量 480 亿,激活参数 30 亿,专为工具使用、推理和自主问题解决设计。该模型在 20 万亿 token 上完成预训练,融合三项关键技术:Fiber Bundle RL(引入 FiberPO 优化框架提升训练稳定性)、Training-Inference Collaboration(通过带 dense MTP 的 Muon 优化器实现 1.3 至 1.7 倍吞吐量提升)、Agentic Intelligence(强化推理与工具调用核心能力)。
性能方面,模型在 19 个权威基准测试中综合表现领先,数学能力 MATH 500 得分 97.10,编程能力 HumanEval 得分 96.34,Agentic 能力 SWE-bench Verified 得分 60.60,长上下文处理 RULER 基准得分 95.60;仅在 Tau2-Telecom 基准中以 79.83 分略低于 GLM-4.7-Flash 的 88.60 分。
模型采用 Modified MIT License 开源,权重与代码已发布于 Hugging Face,同步提供官方 API 及与 OpenAI、Anthropic 兼容的 API 接口,方便用户部署与集成。
49. 阿里千问发布 Qwen3.5-397B-A17B 模型 阿里千问发布并开源 Qwen3.5 系列首款原生多模态模型 Qwen3.5-397B-A17B,总参数 3970 亿,激活参数 170 亿,采用线性注意力与稀疏混合专家混合架构,平衡性能与效率,融合语言、视觉与编程能力,支持思考与快速两种模式。
模型语言与方言支持增至 201 种,在 MMLU-Pro、BFCL-V4、MathVision 等多项基准测试中展现出与 GPT5.2 等前沿模型媲美的实力,提升得益于大规模强化学习训练;基座模型表现媲美超 1T 参数的 Qwen3-Max-Base,解码吞吐量最高提升 19 倍,原生支持超 26 万 token 上下文,其 API 版本 Qwen3.5-Plus 支持 1M 上下文。
用户可通过 Qwen Chat、千问 App、Qwen Code 或阿里云百炼 API 体验,模型权重已开源,官方透露未来几天将发布更多对开发者友好的较小模型,下一阶段将重点从模型规模转向系统整合,构建具备持久记忆与自我改进能力的伙伴型智能体。
50. 蚂蚁百灵发布 Ling-2.5-1T 模型 蚂蚁集团开源旗舰级即时模型 Ling-2.5-1T,总参数 1T,激活参数 630 亿,预训练语料从 20T 扩展至 29T tokens,采用混合线性注意力架构,支持最长 1M token 上下文,以高吞吐量处理长文本任务。
模型在架构、token 效率及偏好对齐等维度全面升级:引入'正确性 + 过程冗余'复合奖励机制,推理能力接近前沿思考模型水平;通过双向强化学习反馈、Agent-based 指令约束校验等精细化对齐策略,在创意写作、指令遵循任务中大幅提升表现;基于大规模高保真交互环境进行 Agentic RL 训练,适配 Claude Code、OpenCode 等主流智能体产品,在通用工具调用基准 BFCL-V4 上达到开源领先水平。
与 DeepSeek V3.2、Kimi K2.5、GPT 5.2 等主流大尺寸即时模型相比,Ling-2.5-1T 在复杂推理、指令遵循能力上具有明显优势,采用 MIT 许可证开源,已在 Hugging Face 和 ModelScope 提供下载,Chat 体验页面和 API 服务将后续在 Ling studio 和 ZenMux 平台上线。
51. 蚂蚁集团开源 Ming-omni-tts 音频生成模型 蚂蚁集团 inclusionAI 开源统一音频生成模型 Ming-omni-tts,提供 0.5B 及 16.8B-A3B 两个版本,是业界首个在单通道内联合生成语音、环境音和音乐的自回归模型。
模型通过定制 12.5Hz 连续 Tokenizer 实现 3.1Hz 的高效推理帧率,核心能力包括细粒度语音控制(语速、音调、音量、情感、方言精准调控,粤语控制准确率 93%,情感控制准确率 46.7%)、智能语音设计(100+ 内置优质语音,支持自然语言描述零样本语音设计)、沉浸式统一生成、高效推理及专业文本规范化(精准解析复杂数学表达式与化学方程式)。
官方评测显示,Ming-omni-tts-16.8B-A3B 在粤语生成、情感控制及零样本语音克隆等基准测试中达到 SOTA 水平,文本规范化能力媲美 Gemini-2.5 Pro,模型权重及推理代码已上线 Hugging Face、ModelScope 及 GitHub(部分相关网页解析失败,以开源平台内容为准)。
52. Cohere Labs 发布 Tiny Aya 多语言模型 Cohere Labs 发布多语言小型模型家族 Tiny Aya,包含 3.35B 参数基座模型 TinyAya-Base(覆盖 70+ 种语言,含多种低资源语言)及 4 个指令微调模型(TinyAya-Global 及针对南亚、西亚/非洲、欧亚区域优化的 TinyAya-Earth、TinyAya-Fire、TinyAya-Water),侧重低资源语言的深度支持而非浅覆盖。
模型上下文窗口为 8K,采用 CC-BY-NC 协议,支持在笔记本电脑及手机端离线运行,设计注重 tokenization 效率,减少跨语言脚本碎片化,降低本地部署的内存与计算需求。性能上,在翻译、摘要任务中表现优异,在数学推理等思维链任务上相对薄弱,在西 Asia 和非洲语言的生成式多语言 AI 领域达到同规模 SOTA 水平。
模型已在 Hugging Face、Kaggle 等平台开源,提供 GGUF 格式,同步发布大规模多语言微调数据集、基准测试及详细技术报告,旨在推动多语言 AI 生态多样化发展。
53. 字节跳动研究团队开源 BitDance 多模态模型 字节跳动研究团队发布开源离散自回归多模态模型 BitDance,参数量 14B,专为视觉生成优化,通过大词汇量二元分词器、二元扩散头及下一块扩散范式,解决传统离散自回归模型重建差、采样难、生成慢的问题,支持每步并行预测最多 64 个视觉 Token,推理速度比标准 AR 模型快 30 倍以上。
模型发布 BitDance-14B-64x(每步预测 64Token,支持 1024px 分辨率)和 BitDance-14B-16x(每步预测 16Token,支持 512/1024px 分辨率)两个版本,配套 UniWeTok 分词器,在 DPG-Bench(88.28 分)和 GenEval(0.86 分)等文本到图像基准测试中表现优异,可生成高分辨率、照片级真实感图像。
模型采用 Apache 2.0 许可证,代码与权重已在 GitHub 和 Hugging Face 开源,提供在线演示及 PyTorch 原生、Diffusers 两种部署版本,相关论文已发布于 arXiv。
54. Google DeepMind 发布 Lyria 3 音乐生成模型 Google DeepMind 发布先进音乐生成模型 Lyria 3,并在 Gemini App 中推出 Beta 版,支持文本转音轨、图像/视频转音轨两种核心功能:用户可描述流派、情绪、记忆等生成音乐,或上传照片、视频让 AI 根据视觉氛围自动谱曲并填写歌词,生成 30 秒音轨及由 Nano Banana 生成的自定义封面图。
相比前代,Lyria 3 有三大改进:自动生成歌词无需用户提供、增强对风格、人声和节奏的精细控制、生成更真实且音乐结构更复杂的曲目。服务面向 18 岁及以上用户开放,支持英语、德语、西班牙语、法语、印地语、日语、韩语和葡萄牙语,桌面端现已可用,移动端将在未来几天内上线,Google AI Plus、Pro 和 Ultra 订阅用户享有更高使用额度。
所有生成音轨均嵌入 SynthID 水印确保可追溯性,Gemini App 同步上线音频验证工具,可识别 AI 生成内容。
55. Prime Intellect 开源 106B 参数 MoE 模型 Prime Intellect 发布开源推理模型 INTELLECT-3.1,采用 Mixture-of-Experts(MoE)架构,总参数 106B,活跃参数 A12B,基于 zai-org/GLM-4.5-Air-Base 构建,通过 prime-rl 框架结合验证器库进行强化学习训练,重点提升数学、编程、软件工程和 Agent 任务的能力。
模型支持在 2x H200s 上通过 vLLM 部署,官方已将模型、训练框架及相关环境以 MIT 和 Apache 2.0 协议完全开源,同步提供技术报告及部署示例代码,所有训练和 evaluation 环境可在 Environments Hub 获取。
56. 阿里千问发布 Qwen3.5 模型系列多个模型 阿里通义千问团队发布 Qwen3.5 模型家族多个型号,涵盖 Qwen3.5-Flash、Qwen3.5-35B-A3B、Qwen3.5-122B-A10B 和 Qwen3.5-27B,主打'More intelligence, less compute'(更强智能、更低算力)理念。
其中,Qwen3.5-35B-A3B 采用 MoE 架构,总参数 350 亿,激活参数 30 亿,性能超越前代 Qwen3-235B-A22B-2507 与 Qwen3-VL-235B-A22B,架构融合线性注意力与标准注意力提升效率;Qwen3.5-122B-A10B 与 Qwen3.5-27B 专注 Agent 场景复杂推理与规划,经长思维链和推理强化学习等四阶段训练,保障长周期任务逻辑一致性,Qwen3.5-27B 为 Dense 模型,支持多模态,适配单 GPU 运行;Qwen3.5-Flash 是 35B-A3B 的托管生产版本,专为低延迟工作流优化,默认支持 100 万 token 上下文,原生支持工具使用与函数调用。
目前用户可在 Qwen Chat 体验这些模型,所有模型权重已在 Hugging Face 和 ModelScope 发布,Flash API 及 vLLM 推理支持均已上线(部分境外链接无法访问,以国内开源平台内容为准)。
57. Cursor 推出新版 Cloud Agents Cursor 正式推出新版 Cloud Agents,赋予智能体独立云端虚拟机(VM),使其具备直接控制计算机的能力,可在云端沙盒环境中构建、运行、测试软件,并生成视频、截图等演示产出物,而非仅生成代码差异,标志着软件构建方式的重大变革。
Cloud Agents 为每个智能体提供完整开发环境,避免本地资源冲突,支持大规模并行运行,适配所有代码库,可在 Web、移动端、桌面应用、Slack 和 GitHub 等多平台工作。用户无需本地检出分支,即可随时接管智能体的远程桌面,直接操作和编辑修改后的软件。
官方数据显示,目前 Cursor 内部合并的 PR 中已有超过 30% 由云端沙盒自主运行的 Agent 创建,该功能已应用于构建新功能、复现漏洞、处理快速修复及执行完整 UI 测试等复杂任务(部分境外链接无法访问,以官方博客内容为准)。
58. Google 发布 Nano Banana 2 图像生成模型 Google 正式发布图像生成与编辑模型 Nano Banana 2(Gemini 3.1 Flash Image),融合 Nano Banana Pro 的高级智能与 Gemini Flash 的处理速度,兼顾高质量与高效率,以 1279 分位列 Image Arena 榜首。
模型集成 Gemini 真实世界知识库,支持通过实时网络搜索优化生成结果,核心升级包括:精准文本渲染与翻译能力(适配营销原型、贺卡等场景)、提升主体一致性(单次生成可维持最多 5 个角色和 14 个物体特征)、强化复杂指令遵循能力、支持 512px 至 4K 分辨率及多种宽高比,视觉上具备更 vibrant 的光影、丰富纹理和清晰细节。
Nano Banana 2 现已全面集成至 Gemini App、Google 搜索、Vertex AI、Flow、Google Ads 等产品,成为默认图像生成模型;API 成本相比 Pro 版下降约 50%,开发者可立即通过 API 接入。在 Gemini 应用中,付费订阅用户可通过菜单重新生成图像,使用 Nano Banana Pro。Google 同步深化溯源机制,结合 SynthID 技术与 C2PA 内容凭证,助力识别 AI 生成内容(部分相关网页解析失败,以官方发布信息为准)。
微信扫一扫,关注极客日志 微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
Markdown转HTML 将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online