本文正在参加「技能视角深入 ChatGPT」征文活动

本年一月,普林斯顿大学的学生Edward Tian发布了一款叫做GPTZero的web运用,这个运用的功能非常简略,就是检测用户输入的一段文字是人类写的仍是AI写的。由于正值ChatGPT的爆红,这款运用也随之颤动。其实GPTZero的主要用户群是面向教育工作者,由于AI文本生成才能的大幅度提升,学生们大规模运用ChatGPT这类东西直接生成小论文或报告的现象越来越普遍,作为教师和教授,急需一款这样的“对抗”东西来辨认这种新时代的“抄袭”行为。

以上仅是布景,我的观念其实和大名鼎鼎的Andrew Ng大佬不约而同…

来来来,作业是ChatGPT写的,都给我站出来!

言归正传,假如想要体验GPTZero,可以访问其官网,无需注册:

gptzero.me

不过这个东西跟咱们关系不大,现在它不支撑中文。中文圈相同面临这个问题,除了学生用AI做作业,各个常识渠道,自媒体渠道也充斥着很多的AI生成内容,一向没有有效控制,水文漫天。

近期,ChatGPT所属的OpenAI公司自己发布了叫做AI Text Classifier的免费东西,和GPTZero相同的功能。从OpenAI的描绘中,我感觉到了其和GPTZero不同的完成办法,GPTZero看起来是对英语词汇和语法的运用随机性进步行了检测,而AI Text Classifier是通过GPT模型来训练猜测。通过简略测验,我发现它是可以对中文进行检测的,根据谨慎的情绪,我还做了进一步的测验,来看看现在这个服务是否可靠。

1. 约束

首要官网给出了关于这个东西的定义:

AI Text Classifier是一个通过微调的 GPT 模型,可以猜测一段文本由 AI (例如 ChatGPT)生成的或许性。该东西可免费运用,主要是为了激起对AI读写才能的评论。

AI Text Classifier强调了现在本身的约束性:

  • 至少需要 1,000 个字符,即大约 150 – 250 个单词。
  • 并不总是精确的。
  • 用户可以轻松编辑 AI 生成的文本以避开Classifier的判别。
  • 东西或许会在儿童书写的文本和非英语文本上犯错,由于它主要是针对成人书写的英语内容进行训练的。

怎样听上去没什么用…持续…

2. 分类

对于评判成果,AI Text Classifier给出了如下五种分类及定义:

  • “Very unlikely to be AI-generated” – 非常不或许是AI生成的文本,对应于 <0.1 的阈值。 在咱们的测验会集,大约 5% 的人工书写文本和 2% 的人工智能生成的文本带有此标签。
  • “Unlikely to be AI-generated” – 不太或许是AI生成的文本,对应于 0.1 到 0.45 之间的阈值。 在咱们的测验会集,大约 15% 的人工编写文本和 10% 的人工智能生成的文本带有此标签。
  • “Unclear if it is AI written”– 不清楚是不是AI生成的文本,对应的阈值在0.45到0.9之间。 在咱们的测验会集,大约 50% 的人工编写的文本和 34% 的人工智能生成的文本都有这个标签。
  • “Possibly AI-generated” – 或许是 AI 生成的文本,对应于 0.9 到 0.98 之间的阈值。 在咱们的测验会集,大约 21% 的人工编写的文本和 28% 的人工智能生成的文本都有这个标签。
  • “Likely AI-generated” – 很或许由 AI 生成的文本,对应于 >0.98 的阈值。 在咱们的测验会集,大约 9% 的人工编写的文本和 26% 的人工智能生成的文本都有这个标签。

听上去也不是很有信心的亚子…

3. 测验人工生成的文本

接下来让咱们来测验一下它的功能吧,首要贴一下我写的某篇文章中的一段内容: 千万别买课,用这些AI东西就能瞬间进步你的写作水平!

成果如下:

来来来,作业是ChatGPT写的,都给我站出来!

这个基本精确了,再来测验另一个文章: 如今有了ChatGPT,咱们该如何开始学习编程?

成果如下:

来来来,作业是ChatGPT写的,都给我站出来!

这个成果,嗯,怪不得有评论说我这篇是ChatGPT生成的…

4. 测验ChatGPT生成的文章

首要让ChatGPT生成一段文字:

来来来,作业是ChatGPT写的,都给我站出来!

贴入AI Text Classifier,得出成果:

来来来,作业是ChatGPT写的,都给我站出来!

成果符合预期,这个东西仍是成功辨认出这段文字是AI生成的。 但是!要点来了 就好像OpenAI自己描绘的那样,这个检测器是可以被搅扰的,我测验了一下,看看下面我给ChatGPT的指令办法:

来来来,作业是ChatGPT写的,都给我站出来!

我在Prompt的关键字里强调了文字描绘风格,生成主题相同的一篇GPT相关介绍文章,然后把这段文字贴到Classifier里,得到的成果是无法辨别:

来来来,作业是ChatGPT写的,都给我站出来!

看起来面对带有一些指定风格和口气而生成的AI文本,Classifier现在还比较难可以辨别。这仅仅我顺手测验的一种办法,当然还有其他办法可以搅扰AI Text Classifier,这里仅仅让大家看到这个东西现在的功能约束,并没有鼓励大家以躲避的办法持续在学业或工作中照搬AI生成的内容,就如我其他文章中所写的,AI在写作上的最大作用是帮助咱们整理考虑逻辑,供给有用的布景材料,或是改进语言的描绘办法,真实的好文章是不能没有作者自己的独立考虑内容的。

整体来说,这个OpenAI出品的文本辨别东西,简略测验下来对中文仍是有了必定的把握了,至少作为论文,作业及网络文章的初筛仍是管用的,当然也有不少躲避和打乱它判别的办法,这里就不再细述更多了。