GPT-4o正在模糊大模型与智能体的边界

发表于 2024-05-19 更新于 2026-05-10

引言

本周5月14日，OpenAI发布了最新的大模型GPT-4o，多项优化能力以及与AI实时互动的场景让人印象深刻。看很多公众号文章已经在各种吹捧GPT-4o，我们也来凑个热闹看看未来世界的样子。

GPT-4o（“o”代表“全能”）是更自然的人机交互的一步——它可以接受任何文本、音频、图像和视频的组合作为输入，并生成任何文本、音频和图像的组合输出。它可以在 232 毫秒内响应音频输入，平均响应时间为 320 毫秒，这与人类在对话中的响应时间相似。

测试下来，感觉GPT-4o已经不仅仅是传统意义上的大“语言”模型，而是一个功能全面的智能体了。

一、图片识别：惊人的细节捕捉能力

随手拍一张小朋友在上网课的照片，让GPT-4o来识别，相比于GPT-4来说，GPT-4o描述了更多的细节

可以看出来，GPT-4o的图片识别不仅限于表面，它甚至能够深入到图片的语义层面。它能够识别出图片中的情感和故事，比如孩子对学习的渴望，或是家庭环境中的温馨和安宁。这种深层次的理解，让GPT-4o在图片识别上超越了简单的图像处理，它能够提供更加丰富和人性化的解读。

二、批改作业：小学生的学习助理

不少小学生家长对辅导作业都非常头疼，尤其是对语文的写作。我们试试GPT-4o是否可以承担学习助理的职责，把“看图写话”拍照给它。这对AI是一个很大的挑战，首先它要理解哪个区域是题目，哪个区域是回答；其次要能理解这幅画想要表达的内容；再次要将所有的手写体正确识别为标准汉字；最后进行批改审阅后输出

这个能力显著超越GPT4，GPT4不仅没有理解哪部分是题目，还把题目中的汉字识别错了，把”小朋友，猜一猜，这是什么季节？“ 识别为”小熊熊，挥一挥，这是什么树？“

对比GPT4的图片识别能力，就能意识到GPT-4o能力的”恐怖“。在辅导作业这件事上，AI已经超越我了。可以想象，随着模型的不断升级，GPT-4o在教育领域的应用将更加广泛，为孩子们提供更加丰富和个性化的学习体验，优质的教育资源从此不再稀缺，真正实现因材施教。

三、编辑音乐：0基础0代码搞定

音乐是人类情感的表达，现在也可以用AI生成各种风格的音乐了，我之前写了两篇用Suno.ai生成音乐的文章可以查阅。用Suno.ai生成音乐虽然简单，但音质较差，没法发布成网易云音乐中的歌曲。这次，我们让GPT-4o来帮忙升级一下音质

GPT-4o可以分析声音的质量，并提供改善音质的建议，但这还不够，因为太复杂了，我不想掌握这些音乐编辑软件。再提一个更“过分”的要求，

GPT-4o的服务态度，真的很好呢。下载后，真的可以用，音质似乎提高了很多，尽管我听不出来明显差别

四、搜索RAG：有待提升

直接问最近比较火的综艺节目《我是歌手2024》参赛歌手和排名情况，虽然GPT-4o已经可以搜索了，但回答的结果并不正确。第二期排名里，海来阿木是第5名，杨丞琳是第7名被淘汰。

拿同样的提示词来问Kimi（左图），回答出正确的答案，并且Kimi在参考资料的数量和推理结果上都优于GPT-4o（右图）

五、语音交互：最自然的沟通方式

在人机交互的历史中，语音一直是一种最自然、最直接的沟通方式。GPT-4o的语音交互功能，正是将这种自然沟通方式提升到了一个新的水平。语音交互只在手机App上可用，网页版是没有的。

这里要说一下字节的豆包app，我认为豆包的语音是国内AI App中声音是最自然流畅的，停顿、音色、语气助词都恰到好处，毫无AI痕迹。

六、实时交互：尚未开放

跟Google2个多小时I/O大会相比，OpenAI的26分钟“发布会”，狙击Google的意味太明显了。Introducing GPT-4o的视频中，主持人演示了可以与ChatGPT进行实时交互，非常自然流畅，但这个能力还没有对所有人开放。

GPT-4o的实时交互能力，在技术上是完全可行的，这预示着实时交互技术已经达到了一个新的高度，它不仅提升了用户体验，还为未来开辟了新的应用场景，结合着VR、AR，提供沉浸式的体验

评测总结：大模型还没到边界

现在回看ChatGPT3.5，GPT3.5是AI时代的“iPhone4时刻”，它开启了AI时代。但不得不说，纯纯的大语言模型现在已经显得笨拙和落伍。我们现在看到的GPT-4o已经俨然是一个智能体了。GPT-4o在图像识别以及复杂任务规划方面表现的相当亮眼，如果再加上实时图像识别和语音交互功能，将带来极具科幻感的体验。

其实真正让我惊讶的不是GPT-4o的能力，而是GPT-4o的输入混合了文本、视觉和音频，所有的输入和输出都由同一个神经网络处理。“由于 GPT-4o 是我们第一个结合所有这些模态的模型，我们仍然只是在探索模型能做什么以及它的局限性。” 说大白话就是It works，但我们都不知道是怎么回事，我们正在朝着未知的未来狂奔…