本文分享自华为云社区《GPT-4发布,AIGC年代的多模态还能走多远?系列之一: AIGC年代:未来已来》,作者: ModelArts 开发 。

人工智能的快速开展使得咱们进入了AIGC年代,即人工智能与图形核算相结合的年代。在这个年代,人们可以使用云核算、大数据剖析等技能来处理和呈现多模态信息。例如,AI体系可以经过语音和图画识别技能对多媒体文件进行剖析,然后完成智能的分类、检索和推荐。此外,跟着5G和物联网技能的不断开展,多模态信息的处理和使用将会越来越遍及。AIGC年代的到来,将会带来巨大的机遇和应战。

01 AIGC年代:万物皆可AI生成

AIGC是一种可以广泛使用于文本、图画、音频和视频生成的人工智能技能。在文本生成方面,它可以运用多种算法进行创造,例如Jasper、copy.Ai、ChatGPT、Bard和GTP4等。在图画生成范畴,它可以使用技能如EditGAN、Deepfake、DALL-E和Stable Diffusion等,创造出各种令人惊叹的图片。对于音频生成,AIGC也具有许多强壮的东西,如DeepMusic、WaveNet、Deep Voice和MusicAutoBot等,可以生成高质量的音乐和声响作用。最后,对于视频生成,AIGC相同可以提供许多资源,比方Deepfake、VideoGPT、GliaCloud和ImageVideo等,可以制作出专业级其他视觉作用和动画。总归,AIGC在多个范畴都有着广泛的使用远景,而且将会持续不断地开展和完善。

AIGC时代:未来已来

(以上图来自网络)

02 多模态大模型的分类与开展头绪

在单模态模型阶段(2012年前),深度学习技能没有遍及,研讨人员主要重视单一类型的数据处理,例如图画分类模型AlexNet等。

紧接着进入单模态模型融合阶段(2012-2018年),跟着深度学习技能的不断开展和使用场景的多样化,研讨人员开端测验将多个单模态模型进行融合,完成不同数据类型之间的穿插学习和融合,例如HT100M、LXMERT、VisualBERT、videoBERT等模型。

现在现已处于多模态一致大模型阶段(2018年至今),研讨人员开端提出采用单个模型处理多个数据类型的办法,这类模型一般包含多种输入和输出方法,需求大量的核算资源和数据支撑,现已取得良好的作用。例如UNITER模型,它是一个基于Transformer结构的多模态一致大模型,可以一起处理文本、图片和视频等数据类型。它在内部使用了跨模态穿插注意力机制来完成不同数据类型之间的交互,然后使得整个模型可以更好地了解多种数据的语义信息,并取得了抢先的功用。

AIGC时代:未来已来

(以上图来自网络)

03 文图生成AIGC-变得精美,可控

近年来,跟着人工智能技能的不断开展,文图生成技能也得到了显著的前进。今天的文图生成模型不仅可以生成传神高清的图画,还可以完成更精美的作用,并具备可控性。 在完成更精美的作用上,研讨人员针对传统GAN模型存在的缺陷,提出了许多改善办法,如Pix2PixHD、SPADE等。这些模型可以增强模型输出的细节体现力,生成愈加实在、精密的图画。 在前进模型的可控性上,研讨人员引入了条件图画生成的思维。经过给定不同的条件信息,包括语义标签、风格向量等,可以使模型生成更多样化、个性化的图画。例如,BigGAN、StyleGAN2等模型就可以依据不同的条件生成各种风格迥异的图画。除此之外,研讨人员还提出了interpolated GAN和controllable GAN等模型,使得用户可以经过插值等方法来精密控制生成图画的各个细节。 总归,文图生成技能在传神高清的图画生成上取得了巨大的成功,在精密度和可控性方面也有了很大前进,这些技能的不断前进将为咱们带来愈加优秀、多样化的文图生成使用。

AIGC时代:未来已来

(以上图来自网络)

但是, 文图生成AIGC的出现使得画风变得愈加传神高清,更有风格和意境。文图生成是使用人工智能技能依据输入的文本生成图画。在文图生成的研讨中,传神高清、融合多种风格和意境的图画生成是重要的研讨方向。其中,高清作画模型如Google Imagen,可以完成高分辨率、传神的图画生成;而意境绘画模型如StableDiffusion,则注重于将多种风格和意境进行融合,生成愈加个性化、有深度的图画。这些模型的使用场景十分广泛,如艺术创造、平面设计等范畴。

AIGC时代:未来已来

(以上图来自网络)

04 视频生成AIGC – 天然流通、绘声绘色

视频生成AIGC(Artificial Intelligence Generated Content)技能正越来越老练,可以使得生成的视频像实在一样天然流通、绘声绘色。 视频生成AIGC技能所用的算法和模型也得到了不断的优化和改善。新式的神经网络算法、光学与物理学建模等技能被引入到视频生成AIGC中,使得生成的视频愈加传神。 视频生成AIGC的研讨重点在于怎么捕捉到影片的场景、运动和心情,以此生成天然流通的视频。为此,研讨人员将深度学习算法使用于视频生成,使得机器可以从大量的视频数据中学习各种动作和情感,然后产生绘声绘色的视频。此外,生成的视频不仅要接近实在,还要做到天然流通。研讨人员还提出了许多技能手段,比方光流剖析、双向循环生成模型等,可以在不同场景下完成平滑过渡,然后使得视频愈加天然流通。 视频生成AIGC技能的开展使得咱们可以生成愈加传神、天然流通的视频,使用场景十分广泛,如影视制作、游戏开发等范畴。未来,视频生成AIGC将会进一步推动技能的开展和立异,给咱们带来更多的惊喜和新体验。

AIGC时代:未来已来

(以上图来自网络)

05 多模态AIGC大模型驱动的具身智能

多模态AIGC大模型驱动的具身智能是一种人工智能技能,它可以将传感器信号和文本输入结合起来,树立语言和感知的链接,然后操控机器人完成使命规划和物品操作。谷歌推出的5620亿参数PaLM-E就是其中的代表。 这种技能的使用场景也很广泛,如智能家居、无人驾驶和工业自动化等范畴。经过大模型驱动的具身智能,机器人可以愈加智能地感知周围环境,并依据文本输入来规划相应的行动,完成人机协同。 PaLM-E模型采用了先进的多模态AIGC技能,它可以结合图画、声响、触觉等多个传感器信号来进行深度学习,并从中提取出关键特征。一起,PaLM-E还可以将文本输入转换为语义表明,与感知信息相结合进行综合判别和决议计划。这种技能的开展使得机器人可以愈加智能地感知和了解周围环境,进而完成精准的使命执行和物品操作。 PaLM-E进一步验证了“智慧涌现”在多模感知和具身智能上的作用。

点我检查视频

(以上视频来自论文《Google’s PaLM-E is a generalist robot brain that takes commands》)

06 GPT-4 的发布,标志着 AIGC 迈入了多模态融合的新纪元

GPT-4的模型取得了重大突破,它具有强壮的图画识别才能,处理长达 2.5 万字的文本输入,让回答准确性大幅提高,以及可以生成歌词、赋有创意的文本,可以完成风格的多样化。

GPT-4 作为一个强壮的多模态模型,可以承受图画和文本输入,并输出准确的文本回答。实验证明,GPT-4 在各种专业测验和学术基准上的体现堪比人类水平。举个例子,在模仿律师考试中,GPT-4 可以取得前 10% 的成绩,而 GPT-3.5 则稍显逊色,只能排在倒数 10%。GPT-4 的新功用答应用户指定视觉或语言使命,并以纯文本设置并行处理文本和图画方式的 prompt。详细而言,当输入包含文本和图画时,GPT-4 能生成相应的文本输出,如天然语言、代码等。在许多范畴,包括带有文本和相片的文档、图表或屏幕截图等,GPT-4 都展示出了与纯文本输入相似的功用。此外,它还可以使用为纯文本语言模型开发的测验时刻技能进行增强,如少样本和思维链 prompt。GPT-4是国际第一款强有力的AI体系,会掀起一场新的工业革命,带来新的社会分工,创造新的使用场景,全面提高人类的智能化水平。

AIGC时代:未来已来

(以上图来自网络)

07 Is the AI GAME OVER?

在Rich Sutton著名文章《苦涩的经验》中,他提出了一个引人深思的观念,即仅有导致AI前进的是更多的数据、更有效的核算。这一观念得到了DeepMind研讨主任Nando de Freitas的支撑,他乃至宣称AI现在彻底取决于规划,AI范畴更难的应战现已解决了,大模型现已(暂时)战胜了精心设计的知识工程。这一观念也得到了实践使用的证明,大量的数据和更强壮的核算才能确实对AI技能的开展起着关键作用。 但是,咱们也不能因而以为AI的开展现已完毕了。如今,尽管大模型现已树立了基础,但真正的应战依然在于怎么将其使用到实践场景中。例如,在自动驾驶范畴,需求考虑不同的天气条件、不同的交通状况等复杂情况,这些都需求AI技能在实践使用中不断完成迭代和优化。 此外,AI在推理、判别和创造等方面仍面对许多应战,完成真正的智能依然需求突破。因而,尽管大模型现已取得了重大进展,但AI的开展之路依然任重而道远。

GPT-4发布,AIGC年代的多模态还能走多远?我将发布四个系列,还会探讨****AIGC的阿克琉斯之踵, 多模态认知智能和AIGC for MMKG,敬请期待!

点击重视,第一时刻了解华为云新鲜技能~