百度文心大模型不好用,可能是你打开方式不正确

群众向科普文章,谁都能看懂。


群友AI作画失利了

今日百度文心一言大模型发布会,我看到摸鱼群里 文心模型被群嘲了

百度文心大模型不好用,可能是你打开方式不正确

大图慎点,确实有点吓人。

百度文心大模型不好用,可能是你打开方式不正确

群里咱们用的都是这个:根据ERNIE-ViLG的文心一格

然后咱们都在说百度这个好垃圾,仍是国外的模型好,还放了一下国外模型生成的妹子:

百度文心大模型不好用,可能是你打开方式不正确

其实或许不是模型垃圾,是没找到正确的打开方式

我生成的

我生成的是下图这样的,我觉得不阴间,并且 还挺美观的

百度文心大模型不好用,可能是你打开方式不正确

百度文心大模型不好用,可能是你打开方式不正确

百度文心大模型不好用,可能是你打开方式不正确

先不要急着说为什么你不生成真人,拿二次元出来算什么。

为什么拿二次元图作比照,我后边会解释。

运用默许风格,虽说没多心爱,可是也没那么阴间吧……

百度文心大模型不好用,可能是你打开方式不正确

百度文心大模型不好用,可能是你打开方式不正确

国外模型真就比文心好?

先来通俗地说两个概念:

模型

给咱们生成图画的便是模型,咱们给模型输入文字,模型给咱们生成图片。

模型只是一堆代码写好的,像一个什么也不会的小朋友,咱们需要去模型怎样生成东西。

  • 如果咱们给模型一堆美少女,模型就能画出来一堆美少女,画不出男的。

  • 如果咱们给模型一堆景色,那模型就能画景色,画不出来人。

检查点

你练习好的模型,学到了对应的常识,咱们把这个常识称为cheakpoint,也便是检查点

比方一个小孩子不会说话:

  • 你教他英语,他今后就会说英语,那咱们能够以为这个孩子的checkpoint是英语。

  • 你教他汉语,他今后便是说汉语的,那咱们能够说这个孩子的checkpoint是汉语。

checkpoint在这儿代指咱们教给他的东西。

比照

国外现在咱们接触到的是根据Stable Diffusion的。

百度的文心一格是根据ERNIE-VilG的。

为什么国外模型作用好?

国外模型作用好,是由于国外开展早,生态好,由于国外模型的cheakpoint多啊。你运用不同的Checkpoint就能生成不同类型的图片了。

下图是国外社区中Stable Diffusion的Checkpoint的冰山一角:

百度文心大模型不好用,可能是你打开方式不正确

那百度呢?百度现在展现的是自己练习的checkpoint,怎样或许和人家那么多比啊。

俗话说双拳难敌四手,俗话说三个臭皮匠顶个诸葛亮……所以你拿人家专门微调好的checkpoint和百度去比,就相当于让一个母语是英语的人一个学了几天英语的中国人比英语水平。

当然你让国外模型的一个Checkpoint去生成它不擅长的东西,它出来的成果也很阴间。

作用比照

先说画妹子

prompt: ((masterpiece,best quality)),1girl, long hair, black hair, long black dress, pigtails, outdoor, red bows, loafer

文本提示: 女,黑头发,双马尾,黑裙子,学生,小皮鞋,黑眼睛,长裙,细节,高清,学生

国外

先展现一下我用国外模型画的二次元人物。这三个checkpoint都是专门生成二次元人物的。

CheakPoint File:meinamix_meinaV8

百度文心大模型不好用,可能是你打开方式不正确

CheakPoint File:mixProV3_v3

百度文心大模型不好用,可能是你打开方式不正确

CheakPoint File:pastelMixStylizedAnime_pastelMixPrunedFP16

百度文心大模型不好用,可能是你打开方式不正确

再来看一下百度

我感觉百度的生成作用现已蛮好的了,毕竟上边三个模型,人家是在专门数据集上练习好的专门用于画二次元妹子的checkpoint,百度作为一个比较通用的模型,能做到这样真的OK了。

百度文心大模型不好用,可能是你打开方式不正确

不是我尬吹,你直接用Stable Diffusion的原始模型,作用还不如文心一格呢……不信你看:

百度文心大模型不好用,可能是你打开方式不正确

所以百度真的不拉胯的……

再来看一下景色

文本提示:雪山,河流,麋鹿,森林,景色,写实,相片,细节,高清

prompt:((masterpiece,best quality)),a high-quality, detailed, and professional image,snowy mountains, rivers, elk, deer, reindeer, forests, scenery,realistic,photos,details,high-definition

由于识别不出elk 麋鹿,所以我还多加了几个buff:鹿deer,驯鹿reindeer

我让一个国外二次元模型画

我的麋鹿呢?那是什么牛马?

百度文心大模型不好用,可能是你打开方式不正确

文心一格基础模型生成好歹有个麋鹿样子的,至少称得上差强人意:

百度文心大模型不好用,可能是你打开方式不正确

可是直接运用Stable Diffusion当时最高版其他基础模型,作用真的没那么牛。

你看到的优异相片都是选到了很厉害的checkpoint生成出来的成功样例罢了,幸存者误差。

百度文心大模型不好用,可能是你打开方式不正确

然后我换了几个CheckPoint:

checkpoint1:根本找不到麋鹿,练习时候应该就没告知它麋鹿怎样画。

百度文心大模型不好用,可能是你打开方式不正确

checkpoint2:有麋鹿了,还有两只,不过一只没有头。

百度文心大模型不好用,可能是你打开方式不正确

checkpoint3:总算有麋鹿了,虽然也是不尽人意,可是这个checkpoint原本画风就比较奇幻,所以我觉得这个麋鹿还OK的。

百度文心大模型不好用,可能是你打开方式不正确

那我怎样生成美观的图?

你或许还想说:你是狗托吧,为啥模型在你手里输出的便是正常图片,在我手里就不正常?

看一下群友的:

百度文心大模型不好用,可能是你打开方式不正确

看一下我的:

百度文心大模型不好用,可能是你打开方式不正确

我的老婆是一位身段窈窕的美女可不能够改成老婆,身段好,漂亮呢?然后顺带加上高清,细节修饰词。

高清,细节不加也行的,文心一格画质还挺好,加上这俩纯属我运用stable diffusion后遗症

功能给你了,你好好用啊!好好写写文字提示(prompt),好好选风格,生成出来的东西绝对不会阴间的。

如果你觉得没有说服力,那我拿国外模型给你展现一下:

同一个cheakpoint出来作用彻底不同的两个图,而他们的差异仅在于我用的prompt不一样

在第二个图中我在文本提示中写了高画质高质量等词语。

百度文心大模型不好用,可能是你打开方式不正确

百度文心大模型不好用,可能是你打开方式不正确

这就比方:

你:安安你快夸我。

我:6

你:安安你快夸我,字多一点。

我:牛逼

你:安安你快夸我,字多一点,再多点。

我:牛哇牛哇

你:安安你快夸我,字多一点,再多点,最好能像动漫里软萌的妹子那样。

我:哇,欧尼酱好棒呀!今日也有好好工作呢!

文本提示越精准,模型生成图片的质量就越好。所以想要正常图片你就好好写文本提示。

当然还有其他要素,比方采样步数、负提示等等,可是百度这儿没设置,也没法比照,就不说了。


为什么你不用真人模型举比如

由于我还没摸索到怎样生成美观的真人。

比方我造周淑怡:

百度文心大模型不好用,可能是你打开方式不正确

有点像,可是也一般,看起来比较假。

可是你们看看人家造的周姐:

高清,还很像! 是模型不行吗?不是的,别人能造出来就证明不是模型的问题,是我的问题,是我还没摸索到怎样生成美观的周姐

百度文心大模型不好用,可能是你打开方式不正确

由于我造真人也不美观,我要是拿真人相片举比如,就会显得国外模型也很拉胯,所以我选二次元图举比如。

不信你看我拿外国模型生成的双马尾妹子,也是有点恐惧……

百度文心大模型不好用,可能是你打开方式不正确


为什么要写这个文章?

国内原本就不如国外生态好,其实模型本身作用还OK了,可是一些用户打开方式不正确,导致模型被群嘲。

其实没掌握运用技巧的话,试用国外模型也不见得会有多好的成果。

文心大模型也好,仍是其他模型也好,背面是工作人员的煞费苦心。文心确实不够完美,可是也不能由于错误的运用方法或怎样一味地去否认它。

刷朋友圈看到一个评论,我感觉特别好:

百度文心大模型不好用,可能是你打开方式不正确

“见惯了大场面的Robin今日似乎有些严重。但不得不说,文心一言或许确实不够完美,但能够在这种环境下把他推出来,值得一些掌声了。”

作为最底层的NLP人,我向百度问候,问候他们的勇气,问候他们的努力和支付。


其他

  1. 文心大模型

  2. ERNIE-ViLG


本文正在参加「金石计划」