Llama 4 结果数据造假,Yann LeCun 接受 FT 采访爆料

Llama 4 结果数据造假,Yann LeCun 接受 FT 采访爆料

https://www.reddit.com/r/LocalLLaMA/comments/1q25070/lecun_says_llama_4_results_were_fudged_a_little/

FT 原文 https://drive.google.com/file/d/1wFy87TP7MJQDF1g0KA8IgZRtOx0jJUGE/view?usp=drivesdk

https://tech.slashdot.org/story/26/01/02/1449227/results-were-fudged-departing-meta-ai-chief-confirms-llama-4-benchmark-manipulation

Yann LeCun, Meta's outgoing chief AI scientist and one of the pioneers credited with laying the groundwork for modern AI, has acknowledged that the company's Llama 4 language model had its benchmark results manipulated before its April 2025 release. In an interview with the Financial Times, LeCun said the "results were fudged a little bit" and that the team "used different models for different benchmarks to give better results."

Llama 4 was widely criticized as a flop at launch, and the company faced accusations of gaming benchmarks to make the model appear more capable than it was. LeCun said CEO Mark Zuckerberg was "really upset and basically lost confidence in everyone who was involved" in the release.

Zuckerberg subsequently "sidelined the entire GenAI organisation," according to LeCun. "A lot of people have left, a lot of people who haven't yet left will leave." LeCun himself is departing Meta after more than a decade to start a new AI research venture called Advanced Machine Intelligence Labs. He described the new hires brought in for Meta's superintelligence efforts as "completely LLM-pilled" -- a technology LeCun has repeatedly called "a dead end when it comes to superintelligence."

Meta即将离任的首席AI科学家、被誉为现代AI奠基人之一的Yann LeCun承认,公司在2025年4月发布Llama 4语言模型前操纵了基准测试结果。这位图灵奖得主向英国《金融时报》透露,团队"对结果进行了小幅润色",且"针对不同基准测试使用了不同模型以呈现更好数据"。

Llama 4发布时因表现欠佳广受批评,Meta被指控通过操纵基准测试夸大模型能力。LeCun表示CEO马克·扎克伯格对此"极为震怒,基本上对参与该项目的所有人失去了信任"。据其透露,扎克伯格随后"边缘化了整个生成式AI部门",并预言"许多人已经离职,更多人员将陆续离开"。

在Meta任职十余年的LeCun即将创办名为"高级机器智能实验室"的新AI研究机构。他批评Meta为超级智能项目招募的新员工"完全沉迷于LLM技术"——这种被LeCun多次称为"通往超级智能的死胡同"的技术。

Yann LeCun calls Alexandr Wang 'inexperienced' and predicts more Meta AI employee departures

https://www.businessinsider.com/yann-lecun-alexandr-wang-criticism-inexperienced-meta-ai-future-2026-1

Read more

AI入门系列:AI入门者的困惑:常见术语解释与误区澄清

AI入门系列:AI入门者的困惑:常见术语解释与误区澄清

引言 人工智能领域充满了令人困惑的专业术语和概念误区。对于刚接触AI的新手而言,机器学习、深度学习、神经网络这些名词常常让人一头雾水。很多初学者会将AI简单地等同于机器人,或者误以为AI已经具备人类水平的思维能力。实际上,AI是一个包含多个子领域的广阔学科,每个术语都有其特定的含义和应用范围。理解这些基础概念的区别,避免常见的认知误区,是踏入AI世界的第一步。本文将系统梳理AI领域的核心术语,澄清普遍存在的误解,帮助初学者建立正确的认知框架,为后续的深入学习打下坚实基础。 AI到底是什么?从科幻到现实的转变 很多人一听到AI,就想到《终结者》里的天网或者《黑客帝国》里的矩阵。但实际上,AI远比这些科幻场景要"接地气"得多。 想象一下,当你对手机说"嘿,Siri,明天天气怎么样?",手机能够理解你的话,查找天气信息,并用语音回答你。这就是AI在工作,它包含了语音识别、自然语言处理、信息检索等多个技术。 AI的本质是让机器完成那些过去只有人类才能完成的任务。但这并不意味着机器要变得像人一样思考,而是让机器在特定任务上表现得像人一样聪明。 误区澄清:

OpenClaw国产平替来了!CoPaw个人助理告别复杂配置,新手10分钟上手,普通人也能薅爆国产AI羊毛

OpenClaw国产平替来了!CoPaw个人助理告别复杂配置,新手10分钟上手,普通人也能薅爆国产AI羊毛

第一章:CoPaw 是什么?国产 AI 数字搭档的核心魅力 现在市面上的 AI 智能助理不少,但要么门槛高得劝退普通人,要么功能单一没灵魂。而 CoPaw 不一样——它是通义实验室(阿里) 靠着 AgentScope 智能体生态做的国产 AI 数字搭档,既是 OpenClaw 的平替升级款,还把**「好用」** 和**「实用」** 拉满了,就算你不是技术出身,也能轻松拿捏专属智能助理。 跟传统 AI 工具比,CoPaw 最戳人的点就是既会干活又有温度: * 有长期记忆还懂你:能自定义专属人设,不管是称呼、性格还是相处模式,都由你说了算。系统会自动记着你的偏好、待办和重要决定,越用越合心意,再也不用面对冷冰冰的问答机器人; * 电脑杂活全包揽:重复又繁琐的活直接甩给它就行——定时清理桌面、查天气查股价、编辑

Cursor Chat 三大模式:Agent、Ask、Plan 解析(2025 版)

Cursor Chat 三大模式:Agent、Ask、Plan 解析(2025 版)

目录 * 前言 * 1. Cursor Chat 模式概览 * 2. Agent 模式:你的自动化工程助手 * 2.1 Agent 模式的工作方式 * 2.2 典型使用场景 * 3. Ask 模式:安全的只读学习与探索助手 * 3.1 Ask 模式的核心能力 * 3.2 典型使用场景 * 4. Plan 模式:可控的大型需求实现方案生成器 * 4.1 Plan 模式如何工作 * 4.2 自动触发 Plan 模式的情况 * 4.3 Plan 模式的典型使用场景 * 5. 三种模式的最佳实践与选择指南 * 6. 模式切换的技巧与开发流程建议 * 6.

【OpenClaw企业级智能体实战】第01篇:从零搭建你的第一个AI员工(原理+算法+完整代码+避坑指南)

【OpenClaw企业级智能体实战】第01篇:从零搭建你的第一个AI员工(原理+算法+完整代码+避坑指南)

摘要:随着AI从“对话时代”迈入“执行时代”,OpenClaw作为开源智能体框架,正在重塑人机协作模式——它不再是被动响应的工具,而是能主动执行任务的“AI员工”。本文基于真实技术原理与实操场景,从背景概念切入,拆解OpenClaw“感知-决策-执行”的核心逻辑,详解算法组件构建思路,并提供从零到一的完整实操流程(含可直接运行的Python代码)。内容兼顾新手入门与进阶提升,强调安全隔离部署原则,避开技术术语堆砌,聚焦实用价值。读者可通过本文掌握OpenClaw基础部署、自定义技能开发、记忆模块集成等核心能力,快速落地自动化办公、信息整理等实际场景,真正体验“低成本、高效率”的AI生产力革命。全文严格遵循真实性原则,无捏造案例与夸大描述,所有代码均经过实测验证。 优质专栏欢迎订阅! 【OpenClaw从入门到精通】【DeepSeek深度应用】【Python高阶开发:AI自动化与数据工程实战】 【YOLOv11工业级实战】【机器视觉:C# + HALCON】【大模型微调实战:平民级微调技术全解】 【人工智能之深度学习】【AI 赋能:Python 人工智能应用实战】