Google DeepMind 研究科学家 Will Whitney 提出,将模型视为人极大地限制了与它互动的思维方式,阻碍了探索大模型的全部潜力。他提出了'模型即计算机'(model-as-computer)的概念。
交互的隐喻
交互的核心是隐喻,它引导用户对系统的预期。早期计算将'桌面'、'打字机'等转化为数字等价物。如今,大模型的主流隐喻是'模型即人'(model-as-person)。这是一个有效的隐喻,因为人具有广泛的能力,我们可以与模型对话、合作完成任务。
然而,把模型当作一个人,却极大地限制了我们与它互动的思维方式。人与人之间的互动受限于说话的带宽和轮流发言的特性。当我们追求精确时,会求助于工具,使用直接操作和高带宽可视化界面。由于我们将模型概念化为人,我们通过缓慢的对话来使用它们,尽管它们完全能够接受快速的直接输入并产生可视化结果。'模型即人'正在阻碍我们探索大模型的全部潜力。
对于许多用例,尤其是生产性工作,更相信另一种隐喻:'模型即计算机'。
把人工智能当作计算机使用
在'模型即计算机'的隐喻下,我们将根据对计算机应用程序的直觉与大模型进行交互。请注意,这并不意味着模型将成为一个传统的应用程序。'计算机应用程序'将是模型向我们展示自己的一种方式。模型将不再像一个'人',而是像一台'计算机'。
而像计算机一样运行,就意味着要产生一个图形界面。替代 ChatGPT 提供的迷人的电传线性文本流,'模型即计算机'系统将生成类似于现代应用程序界面的东西:按钮、滑块、选项卡、图像、绘图和其他所有东西。这就解决了'模型即人'聊天界面的主要局限性:
- 发现性:一个好的工具会告诉人类它可以被用来做什么。当唯一的界面是一个空文本框时,用户就有责任弄清楚该做什么。Lightroom 中的编辑侧边栏是学习照片编辑的好方法,因为它不仅告诉你这个程序能对照片做什么,还告诉你可能想做什么。
- 效率:直接操作比用文字编写请求更快捷。继续以 Lightroom 为例,如果要编辑一张照片,告诉别人要移动哪个滑块、移动多少,那是不可想象的。在'模型即计算机'的隐喻中,模型可以创建工具,让你更有效地表达自己的想法,从而更快地完成任务。
与传统的应用程序不同,这个图形界面是由模型按需生成的。这意味着你所看到的界面的每一部分都与你现在正在做的事情相关。这也意味着,如果你想要更多或不同的界面,你可以直接提出要求。
思维的多变自行车
'模型即人'有一种奇怪的倾向,就是在用户和模型之间制造距离,这就像两个人之间的沟通鸿沟一样。由于用语言交流既困难又昂贵,人们倾向于将任务分成尽可能独立的大块。'模型即人'的界面也遵循这种模式:如果自己编写返回语句更快,就不太值得告诉模型在函数中添加返回语句。有了通信的开销,当'模型即人'系统可以独立完成一整块工作时,它们才是最有用的。
这与我们与计算机或其他工具的交互方式形成了鲜明的对比。工具会实时产生视觉反馈,并通过直接操作进行控制。这些工具的通信开销很小,因此没有必要指定一个独立的工作块。更有意义的做法是,让人始终处于环路中,并随时指挥工具。就像七里靴一样,工具让你每一步都走得更远,但你仍然是做这些工作的人。
想想使用大模型建立网站的任务。使用现在的界面,你可以把模型当作一个承包商或合作者。你会发送一长串越来越吹毛求疵的需求。
'模型即计算机'的交互方式看起来会有所不同:模型不会直接构建网站,而是生成一个界面供你构建网站,用户在该界面中的每一次输入都会调动界面背后的大模型。也许当你描述你的需求时,它会生成一个带有侧边栏和预览窗口的界面。起初,侧边栏只包含一些布局草图,你可以选择它们作为起点。你可以点击每一个草图,模型就会使用该布局编写网页的 HTML,并将其显示在预览窗口中。现在你已经有了一个可以使用的页面,侧边栏增加了影响整个页面的其他选项,如字体搭配和配色方案。预览就像一个所见即所得的编辑器,允许你抓取元素并移动它们,编辑它们的内容等。所有这些都由模型提供动力,它可以看到用户的这些操作,并根据用户所做的更改重写页面。因为模型可以生成一个界面,帮助你更有效地交流,所以你可以在更短的时间内对最终产品进行更多的控制权。
'模型即计算机'鼓励我们把模型当作一个实时互动的工具,而不是一个布置任务的合作者。与其说它代替了实习生或辅导员,不如说它是一种思维的多变自行车,它总是为你和你计划穿越的地形量身定制。
计算的新范式?
可按需生成界面的模型,是计算领域的一个全新领域。通过绕过现有应用模式的方式,它们可能完全是一种新范式。赋予终端用户即时创建和修改应用程序的能力,从根本上改变了我们与计算机的交互方式。模型将取代开发人员构建的单一静态应用程序,为用户及其即时需求生成定制的应用程序。模型将取代用代码实现的业务逻辑,解释用户的输入并更新用户界面。这种生成式用户界面甚至有可能完全取代操作系统,根据需要即时生成并管理界面和窗口。
起初,生成式用户界面只是一个'玩具',只对创意探索和其他一些小众应用真正有用。但渐渐地,这些模型将会变得更好。即使它们进一步推进到全新体验的空间,它们也会逐渐变得足够可靠,可以用作真正的工作。
这种未来的雏形已经显现。几年前,Jonas Degrave 就展示了 ChatGPT 可以像模像样地模拟 Linux 命令行。与此类似,websim.ai 利用 LLM 在你浏览网站时按需生成网站。Oasis、GameNGen 和 DIAMOND 在单个视频游戏上训练动作条件视频模型,让你在大模型中玩《毁灭战士》等游戏。而 Genie 2 则能根据文字提示生成可玩的视频游戏。生成式用户界面可能仍然是一个疯狂的想法,但并没有那么疯狂。
关于它将会是什么样子,还有很多问题有待解决。生成式用户界面首先会在哪里发挥作用?如果我们通过与模型合作获得的体验只存在于大模型的上下文中,我们将如何分享这些体验?我们是否愿意这样做?会有哪些新的体验?这一切将如何实际运作?模型应该以代码的形式生成用户界面,还是直接生成原始像素?


