脉向AI|当豆包手机遭遇“全网封杀“:GUI Agent是通向AGI的必经之路吗?

脉向AI|当豆包手机遭遇“全网封杀“:GUI Agent是通向AGI的必经之路吗?

💡 这是「脉向AI」的深度对话

✨ 只做一件事:邀请真正在AI一线的实践者,拆解影响千万职场人未来的真实变革

这是「脉向AI」的第一期。这个栏目是脉脉与「人民公园说AI」联手打造的思想实验室。我们坚持做一件看似简单却极有价值的事:邀请真正站在AI浪潮前沿的实践者,拆解那些影响千万职场人未来的真实变革。

不贩卖焦虑,不堆砌术语,而是让大家看到:

  • 🌐 这些技术变革背后的商业逻辑是什么?
  • 💼 它将如何重塑我们的工作方式?
  • 🧭 普通职场人该如何在这个浪潮中找准自己的定位?

本期,我们聚焦一个近期刷屏科技圈却又被大众忽视的话题:为什么从华为到小米,从OPPO到vivo,几乎所有国产手机厂商都在系统层面屏蔽了字节跳动的豆包AI手机功能?

💬 "表面上是商业竞争,实质是各方对'AI时代用户入口'控制权的争夺。这将直接影响未来3-5年每个人的工作方式与职业选择。"
—— 张和,本期嘉宾

👤 一、嘉宾张和:站在操作系统与AI融合前沿的战略操盘手

🎓 专业背景
✅ 前头部手机厂商OS战略规划负责人
✅ 12年操作系统与AI融合实战经验
✅ 主导3代AI原生操作系统战略落地
✅ 亲历从功能机到AI手机的完整转型周期

在深入本期话题前,让我们先认识这位不常在公众视野露面,却深刻影响着我们每天使用的手机体验的战略专家。

张和的职业生涯几乎与中国智能手机的崛起同步。2011年,当iPhone刚刚在中国掀起第一波智能机热潮时,他加入了一家头部国产手机厂商,从操作系统底层开发做起。2016年,AI开始进入公众视野,他敏锐地察觉到这将是手机行业的下一个转折点,主动转型至战略部门,专注于探索AI与操作系统的融合路径。

📱 关键战略节点(张和亲历):

  • 2018年:将AI能力引入系统级服务,如相机场景识别、电池智能管理
  • 2020年:推出首个基于用户行为预测的"智能助理"功能
  • 2022-2023年:规划"AI原生操作系统"路线图,将大模型能力深度整合到系统底层
💡 "很多人以为手机OS只是个'壳',实际上它决定着AI能力如何触达用户。就像今天的豆包手机事件,表面上是商业竞争,实质是各方对'AI时代用户入口'控制权的争夺。"
—— 张和

本期对话由「人民公园说AI」主理人小苏主持。他曾供职于国内一线AI实验室,现专注于大模型应用研究与科普,对技术与商业的交叉点有着独特的洞察力。


⚡ 二、豆包被"封杀":一场静悄悄的行业地震

📊 事件时间线

时间事件行业反应
2024年1月字节跳动高调推出"豆包AI手机"功能媒体广泛报道,用户期待高涨
2024年3月起各大手机厂商开始在系统层面限制豆包开发者社区出现兼容性报告激增
2024年4月豆包用户增长曲线出现断崖式下跌字节内部多个AI相关项目方向调整

这一系列动作并非公开宣布,而是通过系统更新、应用商店审核、权限限制等方式"静悄悄"地完成。业内对此有多种解读,而张和认为,这些解读都只看到了表象。

🔥 "真正的原因在于,GUI Agent正在挑战手机行业过去十年建立的权力结构——这不是防御字节,而是防御任何可能夺走这一战略节点的外部力量。"
—— 张和

🧠 三、核心观点一:GUI Agent是通向AGI的必经之路

💡 张和的关键洞察:
"GUI Agent不是手机上的一个'功能',而是通向通用人工智能(AGI)的关键环节,是终局的一部分。"

他解释道,当前大模型虽然在文本、图像生成上取得了突破,但距离真正的"通用智能"仍有巨大差距。而GUI Agent的独特价值在于,它能够理解人类意图,并通过操作系统界面直接执行任务,形成"感知-决策-行动"的闭环。

🌰 一个真实案例
当你对豆包说"帮我整理上个月的报销发票",它需要:
1️⃣ 理解你的意图
2️⃣ 访问相册和文件
3️⃣ 识别发票内容
4️⃣ 按财务规则整理
5️⃣ 生成标准报告

💡 "这个过程中,它不是在生成内容,而是在真实世界中完成任务。这种'行动能力',正是AGI的核心特征之一。"
—— 张和

🌍 为什么手机是最佳试验场

  • 全球有超过60亿智能手机用户
  • 每天产生海量真实交互数据
  • 这些数据包含人类在真实场景中的行为模式
  • 对AI而言,这是无法替代的训练资源

⚖️ 四、核心观点二:短期阵痛与长期博弈

🎯 张和的产业分析:
"豆包被屏蔽,是GUI Agent发展历程中必然经历的阵痛。短期压制会加速行业成熟,当所有玩家都意识到'全封闭'不可持续,妥协与开放将不可避免。"

📈 当前市场格局分析

🏆 大厂策略:筑墙自守

"头部手机厂商凭借庞大的用户基数和完整的生态链,选择建立自己的AI助手。他们不愿将用户习惯和交互数据交给第三方,尤其是在AI竞争的关键时期。这不仅是商业考量,更是技术路线的选择。"

🤝 小厂困境:被迫站队

"中小手机厂商面临更艰难的选择。他们缺乏足够的AI研发能力,又不敢得罪大厂供应链。最终的结果是,要么完全放弃AI战略,要么与某一大厂深度绑定,失去独立性。我称之为'被迫投降'。"

🔍 豆包的真实价值
"对于长尾应用场景,比如小众办公需求、特定行业工具,超级App往往无法兼顾。而像豆包这样的第三方AI,可以更灵活地填补这些空白。"

💎 关键洞察
"当超级App拥有足够强的谈判能力,它可以选择性地开放或关闭这些接口。这就是为什么我们看到,即使在被屏蔽后,豆包仍然能与某些厂商保持有限合作——这完全取决于商业利益的权衡。"


💬 五、主持人视角:巨头的闭环战略与普通人机会

🎙️ 小苏的观点:
"谷歌和阿里这样的企业拥有独特优势——他们同时掌握生态系统和大模型技术。对谷歌而言,Android是自己的,Gemini是自己的,完全可以构建一个从底层到应用的完整闭环。"

🔍 深度对比:巨头VS普通开发者

维度巨头(谷歌/阿里)普通开发者/企业
资源同时拥有生态+大模型通常只有一项优势
策略闭环自给自足寻找生态缝隙
机会定义标准,掌控入口解决长尾需求,做垂直领域的专家

小苏特别强调:

"对绝大多数企业和个人开发者而言,关键在于找到巨头生态无法覆盖的细分场景。一家外贸公司的单证处理,一个设计师的素材管理,这些长尾需求正是第三方AI的机会所在。"

张和补充:

"GUI Agent的价值不在于替代所有应用,而在于连接那些被割裂的数字孤岛。当大厂们争夺入口时,聪明的开发者已经在思考:如何利用这一技术,解决具体场景中的真实问题。"

💼 六、为什么这期对话对职场人至关重要?

🚀 张和预测的四大职业变革:

1️⃣ 交互设计师的角色进化

🎨 "不再只是设计按钮和页面,而是设计AI与人协作的工作流。懂AI逻辑的设计师将成为稀缺人才。"

2️⃣ 产品经理能力重构

📊 "传统的产品规划方法将失效。如何定义一个由AI驱动的功能边界?如何平衡自动化与用户控制权?这需要全新的思维框架。"

3️⃣ 开发者的技能升级

💻 "纯前端或后端开发的价值将下降,而能理解系统级AI集成的全栈工程师将获得溢价。特别是熟悉操作系统原理的人才,将迎来黄金期。"

4️⃣ 普通办公族的效率革命

⏱️ "当GUI Agent成熟,80%的日常办公操作将通过自然语言完成。那些率先掌握'AI指令设计'能力的人,将在同龄人中脱颖而出。"

小苏的补充洞察:

💡 "这场变革将加速'技术民主化'。当一个普通销售助理能通过简单的语音指令,完成过去需要IT支持才能做到的数据分析,组织结构将被重新定义。"

🌉 七、脉脉与「脉向AI」:连接前沿思考与职场成长

✨ 2亿+职场人的共同选择
脉脉:中国领先的职场人社交与成长平台,覆盖超10万家企业

「脉向AI」栏目的诞生,源于我们对用户需求的深度观察。在脉脉社区,关于AI的讨论日益增多:有人焦虑"AI是否会取代我的工作",有人困惑"该学哪些AI技能",更多人希望了解"如何将AI真正用到工作中"。

🎯 我们的承诺
每期「脉向AI」,我们都将邀请:

  • 👥 亲历技术变革的一线实践者
  • 🧠 深谙产业逻辑的战略思考者
  • 💡 能将复杂技术转化为实用价值的内容创作者

🌟 你能获得

  • 🔍 看清技术变革的真正方向
  • 🚫 避免在错误赛道上过度投入
  • 🧭 找到适合自己的AI赋能路径

Read more

【XR技术介绍】一文理清 OpenVR、OpenXR、SteamVR 与各厂商 SDK等容易混淆的概念

【XR技术介绍】一文理清 OpenVR、OpenXR、SteamVR 与各厂商 SDK等容易混淆的概念

在虚拟现实、混合现实开发领域,OpenVR、OpenXR、SteamVR 以及各硬件厂商专属 SDK,是我们经常遇到的东西。是不是傻傻分不清楚,容易混淆它们的定位、归属、功能与适用场景,这些到底是标准协议?还是插件?还是开发工具包?本文将从概念定义、制定 / 开发主体、核心职能、技术关系、适用场景多个维度,系统拆解它们差异与关联,帮你建立完整的认知框架。 一、基础概念总览:先分清 “标准” 与 “实现” 在正式拆解前,先建立一个核心认知:OpenXR 与 OpenVR 是行业标准 / 接口规范,属于抽象的技术协议;SteamVR 是基于标准的 runtime 运行时实现,是可落地的软件平台;硬件厂商 SDK 则是设备专属的底层驱动与开发工具包,是硬件直连的桥梁。标准解决 “兼容统一” 问题,运行时与

SmolVLA高算力适配:TensorRT加速可行性分析与ONNX导出实操

SmolVLA高算力适配:TensorRT加速可行性分析与ONNX导出实操 1. 项目背景与核心价值 SmolVLA作为一款专为经济实惠机器人技术设计的紧凑型视觉-语言-动作模型,在资源受限环境下展现出了令人印象深刻的性能。这个约5亿参数的模型能够同时处理视觉输入、语言指令和动作输出,为机器人控制提供了端到端的解决方案。 在实际部署中,我们经常面临一个关键挑战:如何在保持模型精度的同时,进一步提升推理速度以满足实时控制需求?这就是TensorRT加速技术发挥作用的地方。通过将SmolVLA模型转换为TensorRT引擎,我们有望获得显著的性能提升,特别是在NVIDIA GPU硬件上。 本文将带你深入了解SmolVLA模型的TensorRT加速可行性,并提供详细的ONNX导出实操指南,帮助你在自己的机器人项目中实现更高效的推理性能。 2. TensorRT加速技术解析 2.1 TensorRT的核心优势 TensorRT是NVIDIA推出的高性能深度学习推理优化器和运行时库,它通过多种技术手段提升模型推理效率: * 图层融合:将多个连续的操作层合并为单个内核,减少内

ESP32无人机远程识别终极指南:ArduRemoteID完全配置教程

ESP32无人机远程识别终极指南:ArduRemoteID完全配置教程 【免费下载链接】ArduRemoteIDRemoteID support using OpenDroneID 项目地址: https://gitcode.com/gh_mirrors/ar/ArduRemoteID 随着全球无人机监管政策的不断加强,FAA合规成为无人机操作者必须面对的重要挑战。ArduRemoteID作为基于ESP32的开源解决方案,为无人机爱好者提供了完整的远程识别功能实现。本文将为您提供从硬件选型到安全配置的全面指南。 无人机远程识别的核心挑战 无人机操作者面临的最大痛点是如何在满足FAA远程识别法规的同时,保持设备的灵活性和安全性。传统解决方案往往价格昂贵且配置复杂,而ArduRemoteID通过ESP32平台提供了经济高效的替代方案。 ESP32闪存工具配置 硬件选型与快速安装 ArduRemoteID支持多种ESP32开发板,包括: 硬件型号芯片类型推荐用途ESP32-S3 Dev BoardESP32-S3开发测试ESP32-C3 Dev BoardESP32-

告别从零开发!AI+AR眼镜开源方案来了|PUSHI G1赋能18个全场景,联动腾讯/阿里云落地

告别从零开发!AI+AR眼镜开源方案来了|PUSHI G1赋能18个全场景,联动腾讯/阿里云落地

在人工智能(AI)与增强现实(AR)技术深度融合、加速渗透千行百业的产业浪潮中,深圳企业凭借前沿硬件研发实力与生态构建思维,率先完成从单一硬件供给到全链条系统生态布局的关键跨越,推出AI+AR眼镜应用开放平台。该平台打破行业壁垒,兼容不同厂家的AI/AR眼镜技术方案,彻底解决当前市场核心痛点——市面上多数AI/AR眼镜方案局限于自有品牌闭环,未开放音视频推拉流SDK接口,导致开发者难以基于现有硬件二次开发,创意落地面临“从零起步”的高门槛困境。 作为平台核心支撑,PUSHI G1 AI眼镜开源技术方案构建“硬件+软件+API+SDK”全栈开放体系,覆盖1人创业团队、高校科研小组、学生创新创业项目等各类开发者群体,提供低门槛、高自由度、高兼容性的二次开发环境,实现“让创意无需从零搭建,让技术赋能人人创新”,推动AI+AR技术从专业领域走向个体创新,激活全场景应用潜能。方案深度联动腾讯云、阿里云、高德地图等主流平台API,形成“硬件适配-算法调用-场景落地”全链条支撑。 一、PUSHI