图灵测试 76 年后首现 AI 通过实证:GPT-4.5 以 73% 判定率超越真人,聊天 15 分钟难辨人机

我爱百科网 热点资讯 2

5 月 22 日消息,加州大学圣地亚哥分校的最新研究首次提供了实证数据,可证明现代 AI 系统能够通过经典的图灵测试。

在该测试中,机器需要学习人类并模仿人类对话,使人们无法稳定分辨人类与先进大语言模型之间的差异。

这项发表在《美国国家科学院院刊》上的研究,首次采用英国数学家、“计算机科学之父”艾伦 · 图灵于 1950 年设计的方法对大语言模型进行了严格测试。这也是首次有研究发现,在图灵测试的框架下,AI 模型被判定为人类的概率 / 频率与真人相当。

通讯作者卡梅伦 · 琼斯(Cameron Jones)表示:“我们发现,如果给出恰当的提示,先进的大语言模型可以表现出与人类相同的语气、直接性、幽默感以及易错性。我们知道大语言模型能够轻松产生几乎任何主题的知识,但这项测试表明它们也能令人信服地展现社会行为特征,这对我们如何看待 AI 具有重大影响。”

在图灵测试中,一名参与者同时与另外两方(注:一方是真人,另一方是大语言模型)聊天,作为“审讯者 / 裁判”的人类需要判断哪一方是真人。

研究人员在两组独立的参与者(加州大学圣地亚哥分校本科生和在线参与者)中进行了随机对照实验。审讯者进行简短的文本对话后作出判断。

实验中,参与者与四种不同的大语言模型聊天,包括 GPT-4.5、LLaMa-3.1-405B、GPT-4o 以及上世纪 60 年代基于规则的经典聊天机器人 ELIZA 作为基线模型进行对比。

在四种大语言模型中,GPT-4.5 有 73% 被判定为人类,这意味着“裁判”选择它为“人类”的频率显著高于选择真实人类参与者的频率。

在相同提示下,LLaMa-3.1-405B 有 56% 被判定为人类,与被对比的真实人类在统计学上没有显著差异。基线系统的表现则差得多:ELIZA 和 GPT-4o 整体上分别只有约 23% 和 21% 被判断为人类。

研究合著者、加州大学圣地亚哥分校认知科学教授本 · 伯根(Ben Bergen)指出,图灵测试自诞生 76 年后需要被重新理解。

“图灵测试最初是用来询问机器能否与人类智能相匹敌。但现在我们知道 AI 能以比人类更快、更准确的方式回答许多问题,所以真正的问题不在于原始的计算能力。看到机器能够通过测试,以及它们如何通过测试,迫使我们重新思考测试衡量的究竟是什么。它越来越多地在衡量‘像人一样’的程度。”

每个大语言模型都被赋予了特定的“人格”提示,要求其采用特定的人类角色和沟通风格。Bergen 解释说,大语言模型获胜并不是通过展示知识的力量,而是因为它们会像人类一样犯错误。“这些特征并非图灵当时设想的那种数学和逻辑问题解决型智能。”

当然,提示词的作用至关重要。在没有明确指令的情况下,模型被误认为人类的概率大幅下降:GPT-4.5 的胜率降至 36%,LLaMa-3.1 降至 38%,而 ELIZA(23%)和 GPT-4o(21%)更低。

上述系统可在获得详细提示词描述后伪装成人类,但在没有指导的情况下却无法自主呈现出这些特征。Bergen 对此评论道:“它们有能力表现得像人,但可能不具备自行揣摩如何表现得像人的能力。”

研究结果对网络信任具有现实意义,尤其是在模型能够在长达 5 至 15 分钟的对话中成功伪装成人类的情况下。

Jones 表示:“相对容易就能让这些模型变得与人类难以区分。我们需要更加警惕,当与陌生人线上互动时,人们应该对自己能确定对方是真人而非大语言模型这件事降低信心。”他也指出了更深层的风险。“图灵测试对模型来说本质上是一场关于说谎的游戏。其中一个含义是,模型似乎非常擅长说谎。”

Bergen 补充说,无法分辨自己是在与人类还是机器人互动可能会产生严重后果。“有很多人希望利用机器人来说服人们分享他们的社保号码、为他们支持的政党投票或购买他们的产品。”

▲ 卡梅伦 · 琼斯(左)和本 · 伯根(右)

为了进行这项研究,研究人员构建了一个类似常用即时通讯应用的在线界面。审讯者需要在 5 分钟(在一项重复研究中为 15 分钟)的对话后决定哪一方是真人。为验证结果在不同人群中是否一致,研究分别招募了加州大学圣地亚哥分校的本科生以及通过 Prolific 平台招募的在线参与者,共有近 500 人参与了实验。

抱歉,评论功能暂时关闭!