用户隐私、 数据安全……数据问题是信息科技开展的重要问题,直接影响用户承受度、用户数量,以及更关键的——监管。
一直以来,关于 OpenAI 怎么运用数据、是否乱用用户、侵犯用户隐私,议论纷纷。我调查主要有这么两类观念:
1、 **乱用阴谋论 **:OpenAI 必定和其他科技公司相同,把我跟ChatGPT、API 对话的数据悉数拿去练习了。
2、 **数据飞轮推演论 **:合理估测 OpenAI 的飞速进化,来自于从 2020 年敞开 GPT-3 API 以后、开发者调用 API 数据带来的【用户数据堆集-模型练习-更好的模型-更多用户运用-更多用户数据堆集】的数据飞轮。
连我都调查到了,OpenAI 自不消说,加上有社交媒体巨子的前车之鉴,对于立志完成 AGI 抱负的 OpenAI (以及其他)来说,谨慎处理数据隐私和安全问题,就是重中之重。OpenAI 最大竞争对手之一 Anthropic 就是原 OpenAI 安全团队负责人出于安全考虑另起炉灶创建的新公司。
最近,OpenAI 在官网上发布了一篇博文,具体介绍了 OpenAI API 的数据隐私和安全问题。文章不长,信息量却不小,这儿简略做几点分析。
常规:破折号(——)前为原文,后为我的解读。
1、
OpenAI为其模型供给两种不同的方法:
(a)像ChatGPT运用这样的榜首方消费者运用程序
(b)一个强壮的API平台,面向开发人员和企业,包含咱们最强壮的模型(GPT-4、GPT-3.5 Turbo、嵌入式、微调等),使得各个安排能够直接将 OpenAI模型整合到他们的产品、运用和服务中。
除非您作为用户清晰挑选参加,不然咱们不会对经过咱们的API提交的任何用户数据或元数据进行练习。
2、
OpenAI 不会经过API对输入和输出进行模型练习。
-
咱们的API的输入和输出(直接经过API调用或经过Playground)不会成为咱们模型的一部分。 咱们在模型练习完成后,经过咱们的API供给模型
-
布置到API的模型是静态版别的: 它们不会跟着API恳求进行实时从头练习或更新。
——这是国内很多用户乃至开发者的误区,很多人会觉得「我上周问ChatGPT答不上来的问题,这周忽然能够了,感觉它每天都在变得更聪明」。
其实,只要略微了解GPT模型【预练习-微调SFT/FT-根据人类反馈的强化学习RLHF】的基本练习模式就知道, **动态更新几乎是不或许的 **,OpenAI这次也直接官宣「布置到API的模型是静态版别的,它们不会跟着API恳求进行实时从头练习或更新」,应该能够消除很多人对ChatGPT每时每刻都在进化的美好愿望
它是进化神速,但仍然需求每次新模型练习完的布置( **经常需求几周乃至几个月 **),而不是引荐体系相同,每时每刻优化并更新算法。
对了,假如你觉得「我上周问ChatGPT答不上来的问题,这周忽然能够了,感觉它每天都在变得更聪明」,大概率是由于 **概率问题 **:由于大模型的实质是「猜测下一个词」,你或许前次落在一个不契合你预期的概率里,这次落到另一个契合你预期的概率了。
(ChatGPT:不会说能够不说,干嘛要打破我的滤镜 :)
3、
咱们模型练习的数据来源或许包含 :
2023年3月1日之前提交给OpenAI API的数据(除非安排挑选退出)。
不包含:
2023年3月1日之后经过OpenAI API提交的数据(除非清晰挑选参加),包含输入、输出和文件上传。
——这儿其实 **证明了数据飞轮推演论 **:在2020年GPT-3之后到2023年3月1日之前的API运用数据,是会用于练习模型的,之后的数据不会。
4、
咱们练习模型的数据来源或许包含: **经过咱们的榜首方ChatGPT网页或iOS运用提交的数据 **(除非个别用户封闭聊天历史记录)
——这儿清晰了 **OpenAI会运用你和ChatGPT的聊天记录去练习模型 **,当然,这个信息 已经在ChatGPT新用户弹窗和用户记录页面都提示过了。
5、
数据归属:
API 输入数据:客户
微调练习数据:客户
微调模型:OpenAI(客户对他们练习的模型有独家运用权)
您的安排上传的练习文件仅用于为您的安排调整模型。它不会被OpenAI或任何其他安排用于练习其他模型。
——这其实能够消除企业和开发者「上传数据到OpenAI API会导致公司秘要泄露」的顾虑了, **理论上 **。
综上,我觉得这篇博客仍是回应得挺到位的,既证伪了一些谣言(比方API数据被调用、模型根据我的运用数据实时更新),也证明了一些合理估测(早期API数据是GPT-3之后的模型迅速进化的数据飞轮),值得解读和传播。
当然,正如上个时代咱们只能将保护用户隐私的希望寄托在科技大厂们相同,这一切还要取决于你是否相信OpenAI:
你是否相信,以Sam Altman为代表的OpenAI这群最聪明的脑袋们,真的不为名利、只为完成对人类安全、有利的AGI?
这是个信仰问题,不评论,只说一点实际考虑:
在用户和监管最关心的数据隐私问题上冒险、经过乱用用户数据、侵犯用户隐私的方法加快LLM开展,到底是跑步进入AGI、仍是南辕北辙、最终画蛇添足?
原博客链接:openai.com/api-data-pr…
原文链接:mp.weixin.qq.com/s?\_\_biz=M…