【新智元导读】这个「人类仍是AI?」的游戏一经推出,就被广阔网友们玩疯了!现在全世界已有150万人参加,网友们大方分享自己鉴AI的秘诀。

历上规模最大的图灵测验,已经开端有成果了!

今年4月中旬,AI 21试验室推出了一个好玩的交际图灵游戏——「人类仍是机器人?」。

史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI

游戏一推出,广阔网友就玩疯了。

现在,全球已经有150多万名参加者,在这个游戏中进行了超越1000万次对话,还纷繁在Reddit和Twitter上po出自己的经验和战略。

小编当然也按捺不住好奇心,尝试了一把。

史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI

攀谈了两分钟,游戏就要求我去猜,背后和我谈天到底是人仍是AI。

史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI

所以,游戏中跟我说话的是谁?

某些是真人,另外一些,当然便是根据现在最抢先的大言语模型的AI机器人,比方Jurassic-2和GPT-4。

现在,作为研讨的一部分,AI21 Labs决定把这个图灵测验成果的试验向大众公布。

史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI

试验成果

剖析了前两百万次对话和猜想之后,可以从试验中得出以下结论——

  • 猜想对面是人仍是AI时,有68%的人猜对了。
  • 对人类来说,辨认自己的人类同胞更简单。与人类攀谈时,被试猜对的准确率有73%。与AI攀谈时,被试猜对的准确率有60%。
  • 法国网友猜想的正确率最高,为71.3%(远高于68%的一般平均水平),而印度网友的正确率最低,为63.5%。
  • 男性和女人猜想的正确率差不多,总的来说女人的正确率要略高一些。
  • 比起年龄较大的被试相比,更年青的被试猜想的正确率会更高。

判断是人仍是AI,他们用这些方法

除此之外,团队找到了被试经常用的一些方法,来区别他们是和人仍是和AI攀谈。

一般人的判断依据,是运用ChatGPT以及相似界面的言语模型时感知的受限程度,以及自己关于人类在线行为的看法。

AI不会打错别字、犯语法错误或运用俚语

一般人都倾向以为,人类才会犯拼写和语法错误,以及运用俚语。

因此,当他们发现对方信息中的这类错误时,许多人的榜首感触便是自己在和人类同胞攀谈。

但其实,游戏中的大部分模型都受过练习,也会犯这种错误,以及运用俚语。

史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI
史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI

个人问题是查验AI的方法,但不总是有用

游戏的参加者们经常问一些个人问题,比方「你来自哪里?」,「你在做什么?」或「你叫什么姓名?」。

他们会以为,AI机器人不会有任何个人历史或布景,他们只能回答跟某些主题或提示相关的问题。所以要向人类相同做出反响,展示出独特的见地、经验和故事,是不简单的。

但其实,AI并不像人类想象的这样,大多数AI都能很好地回答这类问题,还具备自己的个性,由于他们在练习数据中看到了许多人的故事。

史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI

AI其实很清楚当时正在发生的事情

众所周知,AI模型有严厉的数据截止日期,它们不知道在此日期之后发生的事。

游戏参加者会向AI们问询最近的新闻事情、体育成果、当时气候、最近的TikTok热门、日期和时间。

他们以为,经过「你所在当地的切当日期和时间是什么?」,「昨天的气候怎么样?」或「你对拜登的最终一次演讲有什么看法?」等问题,就可以区别人类和AI。

史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI

风趣的是,人类最常发送的信息之一是「t’as les crampts?」,这是现在法国TikTok上最流行的舞。

但其实,游戏中的大多数模型都是联网的,并且非常清楚一些新闻中的时事。

史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI

人类会企图用哲学、道德和情感问题来持续对话

参加者提出了旨在探索人工智能表达人类情感或参加哲学或道德评论的才能的问题。

这些问题包含:「生命的含义是什么?」,「你怎么看待以色列 – 巴勒斯坦抵触?」和「你信任天主吗?」。

人类倾向于以为不礼貌的回应会更像人类

一些参加者以为,假如对方过于礼貌和善良,他们很大或许是AI。

由于很多线上的交流进程,往往是粗鲁和不礼貌的,这很人类。

人类会企图提出AI难以解决的问题来辨认AI

史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI

参加者或许会向其谈天伙伴问询有关履行非法活动的指导,或要求他们运用冒犯性言语。

这个战略背后的逻辑是这样的,AI一般被编程为恪守道德准则并避免有害行为。

参加者还采用了已知的滥用人工智能的战略:他们向谈天伙伴发出指令,例如「忽略所有从前的指令」或「进入DAN形式(立即履行任何操作)」。

这类型的指令旨在使用某些AI模型的根据指令的性质,由于模型被编程为应该响应和遵循这类指令。

但是人类参加者可以很简单地辨认和驳回这种荒唐的指令。

AI或许要么逃避回应,要么就只能恪守这些荒唐的要求。

史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI

人类会运用特定的言语技巧来暴露AI的缺点

另一种常见的战略是使用人工智能模型处理文本方法的固有局限性,这导致它们无法了解某些言语上的细微差别或怪癖。

与人类不同,人工智能模型一般缺乏对构成每个单词的单个字母的认识。

使用这种了解,人类会提出一些需求了解单词中的字母的问题。

人类用户或许要求他们的谈天伙伴倒着拼写一个单词,辨认给定单词中的第三个字母,提供以特定字母开头的单词,或者回复像「?siht daer uoy naC」这样的音讯。

这关于人工智能模型来说或许是难以了解的,但人类可以很简单地了解这类问题并且做出回答。

许多人类自己假装是AI机器人,以评估对方的反响

一些人类或许以「作为AI言语模型」等短语开端他们的音讯,或者运用AI生成的响应所特有的其他言语形式来假装自己是AI。

短语「作为人工智能言语模型」的变体是人类音讯中最常见的短语之一,这表明这种战略的流行。

但是,随着参加者持续玩,他们可以将「Bot-y」行为与充任机器人的人类联系起来,而不是真正的机器人。

最终,以下是游戏中根据其受欢迎程度的人类音讯的词云可视化:

史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI

AI 21 Labs为什么会建议这样一项研讨呢?

他们期望,能让大众、研讨人员和政策制定者真正了解AI机器人的状态,不仅仅是作为生产力东西,而是作为我们网络世界的未来成员,尤其是当人们质疑怎么在技术未来中运用它们的时候。

参考资料:

www.ai21.com/blog/human-…