图灵测试 76 年后首现 AI 通过实证：GPT-4.5 以 73% 判定率超越真人，聊天 15 分钟难辨人机

我爱百科网热点资讯 2026-05-22 11:09:38 2

5 月 22 日消息，加州大学圣地亚哥分校的最新研究首次提供了实证数据，可证明现代 AI 系统能够通过经典的图灵测试。

在该测试中，机器需要学习人类并模仿人类对话，使人们无法稳定分辨人类与先进大语言模型之间的差异。

这项发表在《美国国家科学院院刊》上的研究，首次采用英国数学家、“计算机科学之父”艾伦 · 图灵于 1950 年设计的方法对大语言模型进行了严格测试。这也是首次有研究发现，在图灵测试的框架下，AI 模型被判定为人类的概率 / 频率与真人相当。

通讯作者卡梅伦 · 琼斯（Cameron Jones）表示：“我们发现，如果给出恰当的提示，先进的大语言模型可以表现出与人类相同的语气、直接性、幽默感以及易错性。我们知道大语言模型能够轻松产生几乎任何主题的知识，但这项测试表明它们也能令人信服地展现社会行为特征，这对我们如何看待 AI 具有重大影响。”

在图灵测试中，一名参与者同时与另外两方（注：一方是真人，另一方是大语言模型）聊天，作为“审讯者 / 裁判”的人类需要判断哪一方是真人。

研究人员在两组独立的参与者（加州大学圣地亚哥分校本科生和在线参与者）中进行了随机对照实验。审讯者进行简短的文本对话后作出判断。

实验中，参与者与四种不同的大语言模型聊天，包括 GPT-4.5、LLaMa-3.1-405B、GPT-4o 以及上世纪 60 年代基于规则的经典聊天机器人 ELIZA 作为基线模型进行对比。

在四种大语言模型中，GPT-4.5 有 73% 被判定为人类，这意味着“裁判”选择它为“人类”的频率显著高于选择真实人类参与者的频率。

在相同提示下，LLaMa-3.1-405B 有 56% 被判定为人类，与被对比的真实人类在统计学上没有显著差异。基线系统的表现则差得多：ELIZA 和 GPT-4o 整体上分别只有约 23% 和 21% 被判断为人类。

研究合著者、加州大学圣地亚哥分校认知科学教授本 · 伯根（Ben Bergen）指出，图灵测试自诞生 76 年后需要被重新理解。

“图灵测试最初是用来询问机器能否与人类智能相匹敌。但现在我们知道 AI 能以比人类更快、更准确的方式回答许多问题，所以真正的问题不在于原始的计算能力。看到机器能够通过测试，以及它们如何通过测试，迫使我们重新思考测试衡量的究竟是什么。它越来越多地在衡量‘像人一样’的程度。”

每个大语言模型都被赋予了特定的“人格”提示，要求其采用特定的人类角色和沟通风格。Bergen 解释说，大语言模型获胜并不是通过展示知识的力量，而是因为它们会像人类一样犯错误。“这些特征并非图灵当时设想的那种数学和逻辑问题解决型智能。”

当然，提示词的作用至关重要。在没有明确指令的情况下，模型被误认为人类的概率大幅下降：GPT-4.5 的胜率降至 36%，LLaMa-3.1 降至 38%，而 ELIZA（23%）和 GPT-4o（21%）更低。

上述系统可在获得详细提示词描述后伪装成人类，但在没有指导的情况下却无法自主呈现出这些特征。Bergen 对此评论道：“它们有能力表现得像人，但可能不具备自行揣摩如何表现得像人的能力。”

研究结果对网络信任具有现实意义，尤其是在模型能够在长达 5 至 15 分钟的对话中成功伪装成人类的情况下。

Jones 表示：“相对容易就能让这些模型变得与人类难以区分。我们需要更加警惕，当与陌生人线上互动时，人们应该对自己能确定对方是真人而非大语言模型这件事降低信心。”他也指出了更深层的风险。“图灵测试对模型来说本质上是一场关于说谎的游戏。其中一个含义是，模型似乎非常擅长说谎。”

Bergen 补充说，无法分辨自己是在与人类还是机器人互动可能会产生严重后果。“有很多人希望利用机器人来说服人们分享他们的社保号码、为他们支持的政党投票或购买他们的产品。”

▲ 卡梅伦 · 琼斯（左）和本 · 伯根（右）

为了进行这项研究，研究人员构建了一个类似常用即时通讯应用的在线界面。审讯者需要在 5 分钟（在一项重复研究中为 15 分钟）的对话后决定哪一方是真人。为验证结果在不同人群中是否一致，研究分别招募了加州大学圣地亚哥分校的本科生以及通过 Prolific 平台招募的在线参与者，共有近 500 人参与了实验。

本文地址： http://wajm.cn/500201.html

文章来源：我爱百科网