GPT-4o 发布概览
距离 GPT-4 的发布已经过去了一年,当地时间 5 月 13 日上午 10 点,OpenAI 春季发布会正式举行。这次发布的既不是传了很久的搜索引擎,也不是 GPT-5,而是 GPT-4 的迭代版本——GPT-4o。在未来几周内,用户将会陆续自动更新到 GPT-4o。
GPT-4o 作为新一代旗舰模型,把 AI 工具的使用门槛降到了更低的程度。不仅比上一代速度快两倍,能实现无延迟实时对话,而且用户不用注册,功能全部免费。此外,ChatGPT 现在有桌面版本了,轻量化的使用体验可以无缝融入你的任何工作流程。据 OpenAI 的 CTO 米拉·穆拉蒂(Mira Murati)表示,这也是他们第一次在易用性上做出改进。
'O'是包罗万象的 O
发布会刚开始,米拉·穆拉蒂为这次新发布定了调,说 OpenAI 的目标是进一步减小人们使用 AI 的障碍,让所有人都能在工作、学习、创造中用上 AI 工具。为了这个目的,OpenAI 做了三件事:发布更强大的模型 GPT-4o,更新用户界面提高使用体验,然后一口气免费开放给用户。穆拉蒂补充道,付费用户享有五倍的使用容量限制。

米拉·穆拉蒂主持了整场发布会,萨姆·奥尔特曼没有露面。据 OpenAI 表示,GPT-4o 是一个'原生多模态'模型,它的命名来源于'omni',即包罗万象之意。比起此前要么是图文模式要么是语音模式的 GPT-4,它更擅长打组合拳,可以接受文字、音频、图像的任意组合输入,然后无缝衔接图文音频的多种形式输出。
升级后的GPT-4o 回答速度更快了。据 OpenAI 表示,GPT-4 想要实现和人的对话需要通过三步来实现:先把语音转换为文字,再生成回复文本,最后再转成语音。根据用户选择模型的不同,这个过程的平均延迟高达 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。而且在语音转文字再转语音的过程中,很多信息损失了,GPT 无法获得说话人的音调,也无法收取背景音,如果有多个人一起说话更是灾难性的场景。
'我们跨文本、视觉和音频端到端地训练了一个新模型,'OpenAI 写道,'这意味着所有输入和输出都由同一神经网络处理。'现在的 GPT-4o可以在最短 232 毫秒内响应对话,平均响应时间 320 毫秒,和人类的反应速度几乎一样。
GPT-4o 还带来了更好用的界面。再也不用在网页间互相切换了,新的桌面版 GPT 可以融入任何工作流,随时和用户用图像文字语音进行交流。

右上角是桌面版 GPT 的小窗口,可以贴代码让它 debug,可以截图让它读表格,也可以随时跟它对话。此外,萨姆·奥尔特曼在 X 上补充道,模型升级不止在 GPT 上,开发者也可以在 API 里同步使用 GPT-4o,价格是 GPT-4 Turbo 的一半,速度是 GPT-4 Turbo 的两倍。GPT-4o 还在 50 多种除英文外的语言能力上得到了加强。
连呼吸都能辨别
发布会的最后一个环节是实机演示。OpenAI 麾下的大牛研究员 Marc Chen 和 Barret Zoph 一起展示了新模型的强大之处。
在第一段对话里,Chen 对 GPT 说,自己有点紧张,然后开始急促地呼吸。GPT 识别到了他呼吸的声音,说,别紧张,你喘得像个吸尘器,深呼吸,再吐气。接着 GPT 开始指导 Chen 怎么深吸慢呼平复心情。

这个 demo 设置得很妙,它展示出了两个重要的新能力:听环境音和即时反馈。GPT 不再需要一轮一轮地进行对话,它可以同时听人喘气和进行呼吸指导,输入和输出在同时发生。
第二个 demo 里,Chen 让 GPT 给 Zoph 讲个睡前故事哄他入睡,Chen 反复打断 GPT 的讲述,问它能不能讲得更刺激点,最后,GPT 跟迪士尼公主似的把故事用歌唱了出来。有时候 GPT 给人感觉话太多了,在新版本里,你要是不想听可以立刻打断或者提出意见,就像在真实生活里的交流一样。
后面的几个 demo 里,GPT 教 Zoph 做了数学题,给大家解释了代码,读了图表,给 Zoph 看了面相,最后还当了 Chen 和穆拉蒂之间的同声传译。

我个人的体会是,这个版本的 GPT 比以前更像人了,对话中会开更多的玩笑,语气词也多了不少。但还是有很多人对这次发布会不满意。有网友觉得 OpenAI 在挤牙膏,一年多过去了仍然在 GPT-4 上裹足不前,也有人对免费提出了质疑。
'当服务免费时,用户就是产品。''(ChatGPT 免费之后)OpenAI 获得的数据量会超出想象。'
对一般用户来说,不用注册即可使用已经是个天大的惊喜,再也不用找国外手机号了。

