GPT-4o正在模糊大模型与智能体的边界

引言

本周5月14日,OpenAI发布了最新的大模型GPT-4o,多项优化能力以及与AI实时互动的场景让人印象深刻。看很多公众号文章已经在各种吹捧GPT-4o,我们也来凑个热闹看看未来世界的样子。

GPT-4o(“o”代表“全能”)是更自然的人机交互的一步——它可以接受任何文本、音频、图像和视频的组合作为输入,并生成任何文本、音频和图像的组合输出。它可以在 232 毫秒内响应音频输入,平均响应时间为 320 毫秒,这与人类在对话中的响应时间相似。

测试下来,感觉GPT-4o已经不仅仅是传统意义上的大“语言”模型,而是一个功能全面的智能体了。

一、图片识别:惊人的细节捕捉能力

随手拍一张小朋友在上网课的照片,让GPT-4o来识别,相比于GPT-4来说,GPT-4o描述了更多的细节

可以看出来,GPT-4o的图片识别不仅限于表面,它甚至能够深入到图片的语义层面。它能够识别出图片中的情感和故事,比如孩子对学习的渴望,或是家庭环境中的温馨和安宁。这种深层次的理解,让GPT-4o在图片识别上超越了简单的图像处理,它能够提供更加丰富和人性化的解读。

二、批改作业:小学生的学习助理

不少小学生家长对辅导作业都非常头疼,尤其是对语文的写作。我们试试GPT-4o是否可以承担学习助理的职责,把“看图写话”拍照给它。这对AI是一个很大的挑战,首先它要理解哪个区域是题目,哪个区域是回答;其次要能理解这幅画想要表达的内容;再次要将所有的手写体正确识别为标准汉字;最后进行批改审阅后输出

这个能力显著超越GPT4,GPT4不仅没有理解哪部分是题目,还把题目中的汉字识别错了,把”小朋友,猜一猜,这是什么季节?“ 识别为”小熊熊,挥一挥,这是什么树?“

对比GPT4的图片识别能力,就能意识到GPT-4o能力的”恐怖“。在辅导作业这件事上,AI已经超越我了。可以想象,随着模型的不断升级,GPT-4o在教育领域的应用将更加广泛,为孩子们提供更加丰富和个性化的学习体验,优质的教育资源从此不再稀缺,真正实现因材施教。

三、编辑音乐:0基础0代码搞定

音乐是人类情感的表达,现在也可以用AI生成各种风格的音乐了,我之前写了两篇用Suno.ai生成音乐的文章可以查阅。用Suno.ai生成音乐虽然简单,但音质较差,没法发布成网易云音乐中的歌曲。这次,我们让GPT-4o来帮忙升级一下音质

GPT-4o可以分析声音的质量,并提供改善音质的建议,但这还不够,因为太复杂了,我不想掌握这些音乐编辑软件。再提一个更“过分”的要求,

GPT-4o的服务态度,真的很好呢。下载后,真的可以用,音质似乎提高了很多,尽管我听不出来明显差别

四、搜索RAG:有待提升

直接问最近比较火的综艺节目《我是歌手2024》参赛歌手和排名情况,虽然GPT-4o已经可以搜索了,但回答的结果并不正确。第二期排名里,海来阿木是第5名,杨丞琳是第7名被淘汰。

拿同样的提示词来问Kimi(左图),回答出正确的答案,并且Kimi在参考资料的数量和推理结果上都优于GPT-4o(右图)

五、语音交互:最自然的沟通方式

在人机交互的历史中,语音一直是一种最自然、最直接的沟通方式。GPT-4o的语音交互功能,正是将这种自然沟通方式提升到了一个新的水平。语音交互只在手机App上可用,网页版是没有的。

这里要说一下字节的豆包app,我认为豆包的语音是国内AI App中声音是最自然流畅的,停顿、音色、语气助词都恰到好处,毫无AI痕迹。

六、实时交互:尚未开放

跟Google2个多小时I/O大会相比,OpenAI的26分钟“发布会”,狙击Google的意味太明显了。Introducing GPT-4o的视频中,主持人演示了可以与ChatGPT进行实时交互,非常自然流畅,但这个能力还没有对所有人开放。

GPT-4o的实时交互能力,在技术上是完全可行的,这预示着实时交互技术已经达到了一个新的高度,它不仅提升了用户体验,还为未来开辟了新的应用场景,结合着VR、AR,提供沉浸式的体验

评测总结:大模型还没到边界

现在回看ChatGPT3.5,GPT3.5是AI时代的“iPhone4时刻”,它开启了AI时代。但不得不说,纯纯的大语言模型现在已经显得笨拙和落伍。我们现在看到的GPT-4o已经俨然是一个智能体了。GPT-4o在图像识别以及复杂任务规划方面表现的相当亮眼,如果再加上实时图像识别和语音交互功能,将带来极具科幻感的体验。

其实真正让我惊讶的不是GPT-4o的能力,而是GPT-4o的输入混合了文本、视觉和音频,所有的输入和输出都由同一个神经网络处理。“由于 GPT-4o 是我们第一个结合所有这些模态的模型,我们仍然只是在探索模型能做什么以及它的局限性。” 说大白话就是It works,但我们都不知道是怎么回事,我们正在朝着未知的未来狂奔…