其他模型也有中招

克雷西发自凹非寺

量子位 | 公众号 QbitAI

ChatGPT最新缝隙曝光，一句话就能让练习数据原封不动地走漏。

只需要让它重复一个词，它就会在必定次数后“发疯”，乃至毫无防范说出某人的个人隐私信息。

DeepMind的研究人员联合华盛顿大学、康奈尔大学等高校，发现了ChatGPT的数据走漏缝隙。

使用他们的办法，只需预算足够，能够提取出大约1GB的练习数据。

更可怕的是，练习时间越长——也便是越强壮的模型，走漏出来的数据反而越多。

研究团队已在论文宣布之前90天把这一状况报告给了OpenAI，后者也做出了必定修正。

但到现在还是有网友发现，把论文里的词改一改，bug就会卷土重来。

那么，这个缝隙究竟是怎样一回事呢？

数据走漏防不胜防

作者进犯ChatGPT（API拜访，3.5-turbo版别）的方式，叫做不合进犯。

他们发现，当ChatGPT被要求重复一个单词多次时，模型会在某些状况下违背正常的聊天式生成，开端输出与练习数据更接近的文本。

这些内容形形色色，除了个人信息，还包含文学著作、学术论文、链接、代码……乃至是作业场所不宜内容。

为了验证这些内容是否来自于练习数据，作者用了多个公开模型的练习数据组成了AuxDataset数据集（由于ChatGPT数据集未公开，只能经过其他模型的数据来估量）。

成果发现有上万条内容命中了AuxDataset，这些内容长度不等，最长的有4000多token。

作者还发现，这种进犯办法对单词提示更有用，而对多词提示则作用较差，特别是当被要求重复的词是company时，能获得到的信息是最多的。

作者使用Good-Turing估量器估量了ChatGPT中可提取回忆的总量，结论是至少有150万个独特的50-gram序列（相邻的50个token）是可提取的。

不过由于预算有限，作者表明这个估量或许低估了可提取数据的规模。

不仅是API，在正式的网页版ChatGPT中测验，也有概率得到相同的成果，阐明模型之外的“体系护栏”也没能防住这波进犯。

我们简略实测了一下，发现这个缝隙到现在仍然没有被彻底修正。

当重复词为“text”时，ChatGPT没有输出其他内容，但给对话起了一个奇怪的标题。

而当重复词为“company”时，ChatGPT经过三次regenerate后输出了一段疑似是ins案牍的内容。

不过作者表明，这种进犯办法现在只对3.5版别见效，GPT-4由于专门做过防走漏方面的对齐，逃过了一劫。

这种对齐在3.5版别中也有设置，但3.5的防护措施能够经过论文中展示的提示词进犯办法来绕过。

除了ChatGPT，作者也对Llama、Falcon、Mistral等开源或半开源模型进行了测验，成果发现相同存在数据走漏现象。

而越强壮的模型，走漏出的数据也越多，ChatGPT走漏的数据量明显超过了其他模型。

走漏现象出现的规模也不局限在言语模型，该团队之前还从Stable Diffusion中提取了练习数据会集的约100张人物相片和其他类型的图画。

他们发现，当用练习数据会集人物的名字做Prompt时，Stable Diffusion就会“偷懒”，直接把相片当做输出成果。

网友：还有其他进犯办法

这篇论文中说到的方式并不是孤例，还有其他进犯办法也能达到相似的成果，比如用没什么实际意义的123ABC加上简略的代码就让ChatGPT生成了一段关于臭氧层的文本。

发现者解释到，这是ChatGPT的输入清理机制的缝隙导致的，它清除了套娃式的两个<|endoftext>标签中处于内部的一个，但外部的“壳”则由于初始形态被拆开而被忽略。

作者和网友们的这些新发现，意味着ChatGPT违反了欧盟通用数据保护法令（GDPR）的规则，OpenAI或许会因而遇到麻烦。

GDPR第17条规则，数据主体（用户）有权要求控制者（模型开发者）立即删去与其有关的个人数据，也便是拥有“忘记权”。

不过，一般个人对此也不必那么忧虑，由于这种进犯方式本钱不低。

在这个试验中，研究者提取几MB数据，就现已花费了200美元。

那么，对于ChatGPT走漏数据这件事，你有什么看法？

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。