“文心一言”仓促问世：百度，你急了吗？

作者： AutoLab
2023-03-20 21:54
151

天底下最惨的事情是什么？

在我的理解里，莫过于你辛辛苦苦正在追赶自己的对手，眼看着终于看到了他的背影，却发现他其实只是闲庭散步。

还没来得及说上一句话，他又一次小步快跑把你远远丢在了身后。

这就是最近百度文心一言正在经历的事情。

就在 3 月 16 日，百度发布了新一代大语言模型、生成式AI产品文心一言。

对此，百度创始人、董事长兼首席执行官李彦宏表示，文心一言的使用场景主要包含文学创作、商业文案创作、数理推算、中文理解和多模态生成。

然而就在这之前的一天，在 ChatGPT 发布四个月并且展现了其惊人的学习能力之后，OpenAI 不声不响又带来了一次更新：GPT-4。

对此，OpenAI 倒是并不高调，他们在发布时表示：

“我们创建了 GPT-4，这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型（接受图像和文本输入，提供文本输出），虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平。”

但他们给行业带来的压力从来都不这么简单。在文心一言的发布会现场，李彦宏的语气里带着一份不太甘心的低调和谦虚：

“大家的期望值，是我们对标 ChatGPT，对标 GPT-4，这个门槛有点高。十月怀胎，我们就带大家看看这个 AI 大模型文心一言长什么样。”

伴随着大家的调侃，GPT-4 和百度文心一言之间的比较，很显然没法省略过去，毕竟两者都是多模态大模型，使用场景和适配能力也有相当多的重合。而流传出来的调侃图，也可以成为百度文心一言目前紧张现状的一个浓缩。

不过，单纯从李彦宏在发布会现场演示用 demo 的各种功能来说，我们并没有办法简单定论百度文心一言和 GPT-4 孰优孰劣。

尤其是现场在文学创作、中文理解等方面，百度文心一言同样拥有足够出色的表现。

不管是回答问题还是语言组织，其实都还是达到了大家的预期。

相比之下，GPT-4 则拥有更多考试的背书。根据测试，它通过了模拟律师考试，分数能排在在应试者的前 10% 左右；相比之下，GPT-3.5 的得分在倒数 10% 左右。在 SAT 考试方面，GPT-4 的分数增加了 150 分，现在能拿到 1600 分中的 1410 分，在 SAT 阅读考试中和 SAT 数学考试中，都能达到领先的排名。

这或许就是目前大家对于 GPT-4 有更多认同感的原因，毕竟用考试来评价能力也是人类社会比较通行的一个标准。而仅仅从百度文心一言在现场展现出来的部分，大家很难对他的具体能力有足够全面的认识。

当然，目前其实已经有不少媒体尝试获得了文心一言的内测资格，并且他们用同样的问题来观察两者在回答上的差别。

但我个人觉得这样评测意义不大，但凡是我们目前可以想到的测试部分，对于 GPT-4 和百度文心一言来说着实都不是什么复杂的问题，还只是停留在和之前 ChatGPT 类似的环节。

就拿 GPT-4 来说，其实相比 ChatGPT，它已经可以开始处理图像，即可以对输入介质的图形，进行图像和文字的双重认知。尽管输入权限还没有全部公开，但根据国外媒体的报道来说，这一点并没有什么值得怀疑的。另外一个很重要的地方是，GPT-4 似乎更多地开始明白可以“开点玩笑”了，这让他更像是个真实的、具有思想的人，具有别人无法复制的思维方式和幽默感。