“UGC不存在了”——学习自《三体》

ChatGPT 的横空出世将一个全新的概念推上风口——AIGC( AI Generated Content)。

GC即发明内容(Generated Content),和传统的UGC、PGC,OGC不同的是,AIGC的发明主体由人变成了人工智能。

xGC

  • PGC:Professionally Generated Content,专业生产内容
  • UGC:User Generated Content,用户生产内容
  • OGC:Occupationally Generated Content,品牌生产内容。

AI 能够 Generate 哪些 Content?

作为淘宝内容线的开发,咱们每天都在和内容打交道,那么AI终究能生成什么内容?

围绕着不同方式的内容生产,AIGC大致分为以下几个范畴:

聊一下AIGC

文本生成

根据NLP的文本内容生成依据运用场景可分为非交互式文本生成交互式文本生成

非交互式文本生成包括摘要/标题生成、文本风格搬迁、文章生成、图画生成文本等。

交互式文本生成首要包括谈天机器人、文本交互游戏等。

【代表性产品或模型】:JasperAI、copy.AI、ChatGPTBard、AI dungeon等。

聊一下AIGC

图画生成

图画生成依据运用场可分为图画修改修正图画自主生成

图画修改修正可运用于图画超分、图画修正、人脸替换、图画去水印、图画背景去除等。

图画自主生成包括端到端的生成,如实在图画生成卡通图画、参照图画生成绘画图画、实在图画生成素描图画、文本生成图画等。

【代表性产品或模型】:EditGAN,Deepfake,DALL-E、MidJourneyStable Diffusion文心一格等。

聊一下AIGC

音频生成

音频生成技术较为老练,在C端产品中也较为常见,如语音克隆,将人声1替换为人声2。还可运用于文本生成特定场景语音,如数字人播报、语音客服等。此外,可根据文本描绘、图片内容了解生成场景化音频、乐曲等。

【代表性产品或模型】:DeepMusic、WaveNet、Deep Voice、MusicAutoBot等。

聊一下AIGC

视频生成

视频生成与图画生成在原理上相似,首要分为视频修改视频自主生成

视频修改可运用于视频超分(视频画质增强)、视频修正(老电影上色、画质修正)、视频画面编排(辨认画面内容,主动场景编排)

视频自主生成可运用于图画生成视频(给定参照图画,生成一段运动视频)、文本生成视频(给定一段描绘性文字,生成内容相符视频)

【代表性产品或模型】:Deepfake,videoGPT,Gliacloud、Make-A-Video、Imagen video等。

聊一下AIGC

多模态生成

以上四种模态能够进行组合调配,进行模态间转换生成。如文本生成图画(AI绘画、依据prompt提示语生成特定风格图画)、文本生成音频(AI作曲、依据prompt提示语生成特定场景音频)、文本生成视频(AI视频制作、依据一段描绘性文本生成语义内容相符视频片段)、图画生成文本(依据图画生成标题、依据图画生成故事)、图画生成视频。

【代表性产品或模型】:DALL-E、MidJourney、Stable Diffusion等。

本文接下来将会侧重叙述文本类AIGC和图画类AIGC。

文本类AIGC

RNN → Transformer → GPT(ChatGPT)

最近气势正猛的ChatGPT便是文本类AIGC的代表。

ChatGPT(Chat Generative Pre-trained Transformer),即谈天生成型预练习改换模型,Transformer指的是一种非常重要的算法模型,稍后将会介绍。

其完成在的用户关于谈天机器人现已很熟悉了,比方天猫精灵、小爱同学或是Siri等语音帮手。那为什么ChatGPT一呈现,这些语音帮手就显得相形见绌呢?

实质上是NLP模型之间的差异。

在天然语义了解范畴(NLP)中,RNN和Transformer是最常见的两类模型。

循环神经网络(recurrent neural network)

RNN,即循环神经网络(recurrent neural network)源自于1982年由Saratha Sathasivam 提出的霍普菲尔德网络。下图所示是一个RNN网络的简易展现图,左侧是一个简略的循环神经网络,它由输入层、躲藏层和输出层组成。

聊一下AIGC

RNN 的首要特色在于 w 带蓝色箭头的部分。输入层为 x,躲藏层为 s,输出层为 o。U 是输入层到躲藏层的权重,V 是躲藏层到输出层的权重。躲藏层的值 s 不只取决于当时时刻的输入 x,还取决于上一时刻的输入。权重矩阵 w 便是躲藏层上一次的值作为这一次的输入的权重。由此可见,这种网络的特色是,每一个时刻的输入依赖于上一个时刻的输出,难以并行化核算。

从人类视角了解RNN 人类能够依据语境或者上下文,揣度语义信息。就比方,一个人说了:我喜爱旅游,其间最喜爱的当地是三亚,以后有机会必定要去___,很显然这儿应该填”三亚”。 可是机器要做到这一步就比较困难。RNN的实质是像人一样具有回忆的才能,因此,它的输出就依赖于当时的输入和回忆。

Transformer

而Transformer模型诞生于2017年,起源自《Attention Is All You Need》。这是一种根据Attention机制来加速深度学习算法的模型,能够进行并行化核算,并且每个单词在处理进程中留意到了其他单词的影响,作用非常好。

聊一下AIGC

Attention机制:又称为留意力机制,顾名思义,是一种能让模型对重要信息要点重视并充分学习吸收的技术。浅显的讲便是把留意力集中放在重要的点上,而疏忽其他不重要的要素。 其间重要程度的判断取决于运用场景,依据运用场景的不同,Attention分为空间留意力时刻留意力,前者用于图画处理,后者用于天然言语处理。

聊一下AIGC

Transformer是彻底根据自留意力机制的一个深度学习模型,有关该模型的介绍,详情可参考下面这篇文章

人工智能 LLM 革命前夜:一文读懂横扫天然言语处理的 Transformer 模型

由于Transformer的存在加速了深度学习的作用,根据海量数据的进行样本练习便有了或许。至此,LLM正式从幕后走向台前。

LLM,Large Language Model 即大型言语模型。这个大不只仅指数据集的“大”,同样也是指算法模型的“大”。一般来说,在练习数据满足充足的情况下,往往是模型越大作用越好。在某种程度上说,乃至只需样本满足,哪怕模型“略微简略”一些,也是能够取得不错的结果的。

笔者在2019年时曾翻译过一篇文章

机器学习比赛实际上是一场数据比赛

这篇文章的首要观点便是“AI竞赛实质上便是数据之争”,所有期望创立有影响力、有价值的AI运用都应该知道到以下三点:

  1. 差异化数据是这场AI游戏成功的要害
  2. 有意义的数据比全面的数据好
  3. 起点应该是自己所拿手的东西

以ChatGPT为例,其实质是根据GPT3的一种变体,而GPT又是根据Transformer模型的一种演化。从模型参数上来说,GPT3共运用了1750亿个参数练习而成,而ChatGPT只运用了15亿个参数,但其数据集是却是整个互联网和几百万本书大概3千亿文字。哪怕是这样,却也是对一众运用RNN的NLP程序造成了降维冲击。

GPT

这篇文章写到一半的时候GPT-4发布了,现在作为小插曲来扩展一下

笔者在和朋友的日常交流中发现咱们总是将ChatGPT和GPT混为一谈,其实这是两个不同的东西。让咱们来问一下New Bing这两者的差异。

聊一下AIGC

很显然,从Bing给我的回答看来,为了让对话更加生动和有趣,ChatGPT是一个专为谈天规划的专业模型,而GPT则是一个通用言语模型。GPT4便是这个模型开展到第四代的模样,相较于GPT3,GPT4能够做的作业变得更多了。

  • GPT-4 是一个更大的模型,网传具有约 1000 万亿个参数,这意味着它能够处理更多的数据,学习更多的常识和技术。
  • GPT-4 能够承受多模态的输入,例如文本、图画、音频和视频,并生成相应的输出。这使得它能够处理更复杂和丰富的使命,例如图画描绘、语音辨认和视频生成。

类ChatGPT

在国内一向都有一句调侃的话,叫做“国外一开源,国内就自主研制”。那既然算法模型是公开的,代码也现已开源了,那在国内,那些类ChatGPT的模型是不是应该如“雨后春笋”般涌现了呢?

事实上并没有,实质上仍是因为LLM的扩展和保护是适当困难的。首要来源于以下几点:

  1. 绵长的练习时刻
  2. 昂扬的费用开支
  3. 海量的练习数据
  4. 稀缺的高端人才

年代的眼泪

  • 2017 – Attention is all you need
  • 2023 – Money is all you need

以复旦大学开源的类ChatGPT运用MOSS为例,虽然不知道具体的模型参数数量,但其负责人表明相较于ChatGPT少了一个数量级,再加上简中互联网作为其练习样本,练习质量可想而知。

点此体验moss.fastnlp.top/

聊一下AIGC

关于练习的样本数据,这儿举一个小比如。 同样是查找代码段,ChatGPT给你推StackOverflow的答案,MOSS给你推csdn的答案,高低立判

原本还想补充一下百度的文心一言的,结果他们发布了一个ChatPPT,网上一堆段子,这儿就不吐槽了。

图画类AIGC

说完了文本类AIGC,咱们再来看看最近另一个比较火的范畴——图画类AIGC。

俗话说,饱暖思淫欲。作为“第一生产力”的“性”,许多技术开展都离不开他。扎克伯克创立Facebook的起因便是为了更好的知道小姐姐。而图画类AIGC出圈的一个很大原因就在于,他生成的美人小姐姐越来越实在了。

作为一个业余摄影师,第一眼也没能正确分辩出下面这两张图谁是真人,谁是AI画出来的人。

聊一下AIGC

聊一下AIGC

那么问题来了:这些由AI生成出来的美人是怎么生成的呢?

GAN → DiffusioModel → Stable Diffusion

生成敌对网络( Generative Adversarial Networks,GAN

2014年 Ian GoodFellow提出了生成敌对网络,成为早期最著名的生成模型。GAN运用零和博弈策略学习,在图画生成中运用广泛。以GAN为根底发生了多种变体,如DCGAN,StytleGAN,CycleGAN等。

零和博弈是指参与博弈的各方,在严厉竞赛下,一方的收益必定意味着另一方的丢失,博弈各方的收益和丢失相加总和永远为“零” ,两边不存在协作的或许。

一个简略易懂的比如

有两个人,都快要渴死了,现在他们面前只要一杯水,抢到水的那人得到的收益是1,没抢到水的那个人会死掉,收益为-1,总收益为0。这便是零和博弈。

GAN包括两个部分:

  • 生成器: 学习生成合理的数据。关于图画生成来说是给定一个向量,生成一张图片。其生成的数据作为判别器的负样本。
  • 判别器:判别输入是生成数据仍是实在数据。网络输出越挨近于0,生成数据或许性越大;反之,实在数据或许性越大。

聊一下AIGC

如上图,咱们期望经过GAN生成一些手写体来以假乱真。咱们界说生成器与判别器:

  • 生成器:图中蓝色部分网络结构,其输入为一组向量,能够表征数字编号、字体、粗细、马虎程度等。在这儿运用特定分布随机生成。
  • 判别器:在练习阶段,运用实在数据与生成数据练习二分类模型,输出为0-1之间概率,越挨近1,输入为实在数据或许性越大。

生成器与判别器彼此敌对。在不断迭代练习中,两边才能不断加强,最终的抱负结果是生成器生成的数据,判别器无法判别是真是假。(和周伯通的左右互搏很像)

以生成敌对网络为根底发生的运用:图画超分、人脸替换、卡通头像生成等。

分散模型( Diffusion Model,里程碑式模型

分散是受到非平衡热力学的启示,界说一个分散步骤的马尔科夫链,并逐步向数据中添加噪声,然后学习逆分散进程,从噪声中构建出所需的样本。分散模型的开端规划是用于去除图画中的噪声。随着降噪系统的练习时刻越来越长且越来越好,能够从纯噪声作为仅有输入,生成传神的图片。

马尔科夫链指的是一种随机进程,它的特色是当时状况只依赖于前一个状况,而与其他前史状况无关。

一个马尔科夫链的比如是股市模型,它有三种状况:牛市、熊市和横盘。 每种状况之间有必定的搬运概率,例如从牛市到熊市的概率是0.4,从熊市到牛市的概率是0.2,等等。这样就能够用一个搬运矩阵来描绘这个马尔科夫链。

一个规范的分散模型分为两个进程:前向进程与反向进程。在前向分散阶段,图画被逐步引入的噪声污染,直到图画成为彻底随机噪声。在反向进程中,运用一系列马尔可夫链在每个时刻步逐步去除猜测噪声,然后从高斯噪声中康复数据。

前向分散进程,向原图中逐步加入噪声,直到图画成为彻底随机噪声。

聊一下AIGC

反向降噪进程,在每个时刻步逐步去除噪声,然后从高斯噪声中康复源数据。

聊一下AIGC

分散模型的作业原理是经过添加噪声来损坏练习数据,然后经过反转这个噪声进程来学习康复数据。换句话说,分散模型能够从噪声中生成连接的图画。

分散模型经过向图画添加噪声进行练习,然后模型学习怎么去除噪声。然后,该模型将此去噪进程运用于随机种子以生成传神的图画。

下图为向原始图画中添加噪声,使原始图画成为随机噪声。

聊一下AIGC

下图为从噪声中康复的原始图画的变种图画。

聊一下AIGC

Stable Diffusion(Stability AI 文本生成图画,代码与模型开源

2022年8月,Stability AI发布了Stable Diffusion ,这是一种开源Diffusion模型,代码与模型权重均向公众敞开。

经过prompt提示语“郊区街区一栋房子的相片,灯火明亮的超实际主义艺术,高度细致8K”,生成图画如下,全体风格与内容锲合度高,AI作画质量较高。

在线体验huggingface.co/spaces/stab…

聊一下AIGC

仰望星空:AIGC与元国际

聊一下AIGC

结论先行,我认为Web3.0便是元国际,AIGC为元国际提供养料。

第一代互联网(Web1.0)是PC(个人核算机)互联网,从1994年开展至今。Web1.0让人类第一次掌握高效的传输信息的手法,随着各大网页运用的遍及,互联网用户被敏捷的连接起来,然后提升了全球信息的传输功率,各大门户网站从此处开端大放异彩。

第二代互联网(Web2.0)是移动互联网,从2008年左右拉开大幕,至今仍精彩纷呈。正是由于移动设备具备“永远在线”和“随时随地”的特色,“上网”二字逐步从群众的视野消失,因为每个人时时刻刻都日子在网络里。

第三代互联网(Web3.0)是互联网的下一代技术开展方向,首要特征是去中心化、安全、敞开和自主。元国际是一种虚拟的、继续的、共享的和交互的数字国际,能够让人们以不同的身份和方式参与其间。Web 3.0为元国际提供了技术根底和或许性,而元国际则是Web3.0在运用场景和日子方式上的体现。

百度百科关于元国际的界说是

元国际(Metaverse) 是人类运用数字技术构建的,由实际国际映射或超越实际国际,可与实际国际交互的虚拟国际,具备新式社会系统的数字日子空间。

实质上,元国际是一种新式社会形态,在元国际中,更多作业和日子将被数字化。

更多的数字化,意味着需求更丰富的虚拟地图、虚拟场景、虚拟目标和虚拟角色,这其间涉及到大量数字内容的生产和制作。以往,数字内容制作开发周期较长,通常以年计,在生产方式上,或来源于实际,经过扫描或重建模型完成原料、光影、动作捕捉等,或经过发明东西辅助艺术家完成。而这些刚好是AIGC所拿手的。AIGC广泛的适用性能够为元国际提供全新内容生成解决方案

脑洞一下 敞开国际游戏一向被咱们视作元国际“数字国际”的雏形,试想一下,如果未来的3A大作,NPC的脸部模型、肢体动作是Diffusion Model生成的,谈天是ChatGPT和你对话,语音是Deep Voice发明的,你还会觉得他就仅仅一个普普通通的NPC吗?抑或是,此刻看文章的你,才是地球Online里的一个NPC呢?

兢兢业业:AIGC的运用场景

元国际现在还仅仅咱们的一个美好愿望,Web3.0终究走向何方还需求咱们共同探究,作为年代的先锋,既要学会抬头仰望星空,也不能忘记垂头看路。

如今,AIGC的浪潮已起,作为非算法职业的从业者,底层的算法完成并非咱们关心的要点,怎么发挥AI的作用,发明出实际的价值才是咱们应该探讨的方向。除了谈天机器人、画画这种不痛不痒的功能外,AIGC或许会颠覆的运用场景会有哪些呢?

人工智能助理

AIGC+查找现已成为我现在获取信息的第一途径了。现在,New Bing作为我的交心小帮手,不论是什么想要了解的常识点,他都能够快速的给我解答,省去了我在海量信息中筛选的进程。

聊一下AIGC

聊一下AIGC

辅助作业流

聊一下AIGC

摘自Microsoft 365 Copilot官网

人类天生就有愿望、发明、创新的天性。咱们每个人都巴望做一些有意义的作业——写一部巨大的小说,做一个发现,树立一个强壮的社区,照料患病的人。咱们都有与作业中心相连的激动。可是今日,咱们花了太多时刻在那些消耗咱们时刻、发明力和精力的琐碎使命上。为了从头连接到作业的灵魂,咱们不只需求一种更好地做同样作业的方法。咱们需求一种全新的作业方式。 —— 翻译自 ChatGPT

GPT4发布的第二天,Microsoft 365 Copilot变横空出世,宣传片信任咱们都现已看到了,从此以后咱们的作业方式将永远改动,开启新一轮的生产力大爆发。

除此之外,前段时刻笔记软件Notion也上线了自己的AI帮手,能够帮助用户更轻松、更方便地完成日常使命。首要包括主动文本生成、内容推荐、智能查找、情感剖析等。

聊一下AIGC

能够预见,AIGC的呈现将会极大的改动现有的作业模式,未来,越来越多的功率软件、工作软件将会推出其自己的AI解决方案。

插播一条职业动态 36氪独家获悉,钉钉已完成对协同工作厂商「我来wolai」的全资收买。3月5日,我来wolai(上海我云网络科技有限公司)数位中心团队成员现已退出公司股东名单。公司法人已变为钉钉总裁叶军,公司则由阿里100%控股。36氪就上述音讯向钉钉求证,钉钉官方表明:我来wolai团队已加入钉钉,将负责智能化协作文档的研制,和个人版文档的产品规划。

文本生成器(对话、文案、代码……)

聊一下AIGC

笔者最近一向沉浸“以xxx的口吻调教ChatGPT”,上图便是在绩效季到来之际用chatGPT给老板们整的活,别的不说,作用仍是蛮不错的。自行跳转 《老板评语生成器》

ChatGPT最强壮的便是其背后的巨大数据,根据此,你乃至能够让那些不存在的人物、已故的人物呈现。笔者最近刚看完电视剧《三体》,如果真的有一款“三体游戏”,里面的墨子、秦始皇等人物会不会便是ChatGPT生成的呢?

如果你也想调教出一个自己的对话机器人,能够试试这个网站open-gpt.app/

关于AIGC的落地,最后推荐两个和咱们饭碗有关的AIGC产品

Codeium

聊一下AIGC

Github Copilot

聊一下AIGC

AIGC在道德问题上的攻与守

攻——运用AIGC生成有害内容

AIGC技术强壮的发明才能也引发对技术作恶的担忧。当要求类ChatGPT运用制作有害信息时,它确实能够做到,输出首要以文本和图片为主。

  1. 网络欺诈话术教学者
  2. 人机交互意味着无限或许,ChatGPT 或许会恪守某种虚伪设定下的邪恶指令。
  3. 黑产团伙可精细化练习AIGC技术生成各类话术,用于网络欺诈、评论刷量等,不只能够主动发帖,还会对其他用户的帖子做出呼应,并打开长期的运营。
  4. 过错信息超级传达者
  5. ChatGPT的不可靠之处还在于,或许会加重虚伪音讯和过错音讯的传达。ChatGPT不具有辨认甄别才能,给出的答案很或许凑集而来,看似合理,却隐藏事实性过错。如果用户没有这方面的鉴别才能,就或许发生比较大的危险,特别是在一些政治文明、医疗健康、交通安全方面的话题,过错的回答或许引起严重后果。
  6. 色情暴力素材生成机
  7. 用户运用AIGC生成虚伪名人相片等违禁图片,乃至会制作出暴力和性有关的画作,LAION-5B数据库包括色情、种族、恶意等内容,现在海外现已呈现根据Stable Diffusion模型的色情图片生成网站。

聊一下AIGC

  1. AIGC对个人肖像权等权力的侵略

finance.sina.com.cn

  1. AIGC对原发明品的版权侵略

网易LOFTER风波警醒了谁?_风闻

守——怎么应对AIGC的“暗黑”一面?

在可预见的未来,AIGC将会以井喷的态势席卷各个职业,在享受AI赋能咱们生产力的一起,也应该警惕AIGC带来的危害。

《Nature》杂志在《ChatGPT: five priorities for research》一文中提到,对AIGC的进一步研讨需求重视的五个问题:

  1. 必须要对模型进行继续校对;
  2. 制定问责制与规则;
  3. 出资于真正敞开的大言语模型;
  4. 扩大辩论规模;
  5. 拥抱人工智能的优点。

ChatGPT会设置多层道德底线,兼顾科学和道德,约束“经济人”行为,以坚持“人尽其才、物尽其用”特性。未来,亦有或许呈现“以子之矛,攻子之盾”的场景,用AI去辨认/敌对AI。

也许未来会呈现许多这样的文章
《一种根据xxx的AI文本/图画检测技术》

最后

对职业的思考

Meta AI 负责人、图灵奖得主杨立昆Yann LeCun近日表明:就底层技术而言,ChatGPT 并没有特别的创新。与其说 ChatGPT 是一个科学打破,不如说它是一个像样的工程实例

聊一下AIGC

AI人工智能的底层三大件,数据,算力,算法的开展给ChatGPT的呈现提供了爆发的根底,Open AI 将它组合的很好,不可是算法并且还包括了算力,数据。

数据方面,互联网的几十年高速开展,堆集了海量人类的文本。

算力方面,核算机技术的开展,从芯片的制程到相似Chiplet,等助力AI芯片蓬勃开展。

算法,从神经元算法起步,到Transformer 等各类算法的炉火纯青的运用。

所以AI底层三大件的开展,必定会催生出更多相似于ChatGPT的通用人工智能运用,但咱们更应该重视底层三大件的开展,未来数据相似于宝藏和矿产;芯片算力,成了决胜AI的大器,没有芯片那么数据矿产无法发掘;算法,犹如矿藏提纯配方。

关于职业而言,未来做好AI三大件的作业,才能在AI年代赢得盈利。

对个人的启示

说到最后,许多人变得焦虑,忧虑自己会被取代,那么从个人的视点出发,咱们关于AIGC的态度终究应该是什么样的呢?

马克思说过,人和其他动物的最大差异是“运用东西制作东西”,而GPT是进入信息年代以来,人类最巨大的东西之一。运用 GPT 能够直接调用人类千年以来堆集的常识与技术,关于咱们普通人而言,自己身上没有神迹,也非天才,与其测验与机器、GPT和AI竞赛,不如站在AI这个巨人的肩膀上,运用这些东西让自己变得更强。

未来,能否运用AI将会成为衡量一个人才能的规范之一。就像当年智能设备遍及时,那些不会运用智能手机的人注定会被筛选一样。