GPT-4o 发布：原生多模态模型与免费开放策略

GPT-4o 发布概览

距离 GPT-4 的发布已经过去了一年，当地时间 5 月 13 日上午 10 点，OpenAI 春季发布会正式举行。这次发布的既不是传了很久的搜索引擎，也不是 GPT-5，而是 GPT-4 的迭代版本——GPT-4o。在未来几周内，用户将会陆续自动更新到 GPT-4o。

GPT-4o 作为新一代旗舰模型，把 AI 工具的使用门槛降到了更低的程度。不仅比上一代速度快两倍，能实现无延迟实时对话，而且用户不用注册，功能全部免费。此外，ChatGPT 现在有桌面版本了，轻量化的使用体验可以无缝融入你的任何工作流程。据 OpenAI 的 CTO 米拉·穆拉蒂（Mira Murati）表示，这也是他们第一次在易用性上做出改进。

'O'是包罗万象的 O

发布会刚开始，米拉·穆拉蒂为这次新发布定了调，说 OpenAI 的目标是进一步减小人们使用 AI 的障碍，让所有人都能在工作、学习、创造中用上 AI 工具。为了这个目的，OpenAI 做了三件事：发布更强大的模型 GPT-4o，更新用户界面提高使用体验，然后一口气免费开放给用户。穆拉蒂补充道，付费用户享有五倍的使用容量限制。

GPT-4o 发布会现场

米拉·穆拉蒂主持了整场发布会，萨姆·奥尔特曼没有露面。据 OpenAI 表示，GPT-4o 是一个'原生多模态'模型，它的命名来源于'omni'，即包罗万象之意。比起此前要么是图文模式要么是语音模式的 GPT-4，它更擅长打组合拳，可以接受文字、音频、图像的任意组合输入，然后无缝衔接图文音频的多种形式输出。

升级后的GPT-4o 回答速度更快了。据 OpenAI 表示，GPT-4 想要实现和人的对话需要通过三步来实现：先把语音转换为文字，再生成回复文本，最后再转成语音。根据用户选择模型的不同，这个过程的平均延迟高达 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。而且在语音转文字再转语音的过程中，很多信息损失了，GPT 无法获得说话人的音调，也无法收取背景音，如果有多个人一起说话更是灾难性的场景。

'我们跨文本、视觉和音频端到端地训练了一个新模型，'OpenAI 写道，'这意味着所有输入和输出都由同一神经网络处理。'现在的 GPT-4o可以在最短 232 毫秒内响应对话，平均响应时间 320 毫秒，和人类的反应速度几乎一样。

GPT-4o 还带来了更好用的界面。再也不用在网页间互相切换了，新的桌面版 GPT 可以融入任何工作流，随时和用户用图像文字语音进行交流。

桌面版 GPT 小窗口示例

右上角是桌面版 GPT 的小窗口，可以贴代码让它 debug，可以截图让它读表格，也可以随时跟它对话。此外，萨姆·奥尔特曼在 X 上补充道，模型升级不止在 GPT 上，开发者也可以在 API 里同步使用 GPT-4o，价格是 GPT-4 Turbo 的一半，速度是 GPT-4 Turbo 的两倍。GPT-4o 还在 50 多种除英文外的语言能力上得到了加强。

连呼吸都能辨别

发布会的最后一个环节是实机演示。OpenAI 麾下的大牛研究员 Marc Chen 和 Barret Zoph 一起展示了新模型的强大之处。

在第一段对话里，Chen 对 GPT 说，自己有点紧张，然后开始急促地呼吸。GPT 识别到了他呼吸的声音，说，别紧张，你喘得像个吸尘器，深呼吸，再吐气。接着 GPT 开始指导 Chen 怎么深吸慢呼平复心情。

呼吸识别演示

这个 demo 设置得很妙，它展示出了两个重要的新能力：听环境音和即时反馈。GPT 不再需要一轮一轮地进行对话，它可以同时听人喘气和进行呼吸指导，输入和输出在同时发生。

第二个 demo 里，Chen 让 GPT 给 Zoph 讲个睡前故事哄他入睡，Chen 反复打断 GPT 的讲述，问它能不能讲得更刺激点，最后，GPT 跟迪士尼公主似的把故事用歌唱了出来。有时候 GPT 给人感觉话太多了，在新版本里，你要是不想听可以立刻打断或者提出意见，就像在真实生活里的交流一样。

后面的几个 demo 里，GPT 教 Zoph 做了数学题，给大家解释了代码，读了图表，给 Zoph 看了面相，最后还当了 Chen 和穆拉蒂之间的同声传译。

面相分析演示

我个人的体会是，这个版本的 GPT 比以前更像人了，对话中会开更多的玩笑，语气词也多了不少。但还是有很多人对这次发布会不满意。有网友觉得 OpenAI 在挤牙膏，一年多过去了仍然在 GPT-4 上裹足不前，也有人对免费提出了质疑。

'当服务免费时，用户就是产品。''（ChatGPT 免费之后）OpenAI 获得的数据量会超出想象。'

对一般用户来说，不用注册即可使用已经是个天大的惊喜，再也不用找国外手机号了。

GPT-4o 发布：原生多模态模型与免费开放策略

GPT-4o 发布概览

'O'是包罗万象的 O

连呼吸都能辨别

更多推荐文章

相关免费在线工具

GPT-4o 发布：原生多模态模型与免费开放策略

GPT-4o 发布概览

'O'是包罗万象的 O

连呼吸都能辨别

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具