本文正在参加「金石计划 . 分割6万现金大奖」


自然语言处理

每次有人问:你是搞什么的?

(对于普通人)我:搞AI的。

(对于程序员)我:搞算法的。

我一般不会说我是做自然语言处理(Natural Language Processing,NLP) 的,由于大部分人并不知道这是个什么东西。

大部分人提起AI就只知道他是人工智能,脑子想的都是alpha go打败李世石或许其他和机器人相关的东西,而实际上机器人这只是人工智能的一个小分支。

看一下下图,下图来自史忠植教师编著的《人工智能》教材,这张图是展现了和人工智能相关的学科以及人工智能的研讨和使用领域。

带你了解自然语言处理文本生成方向

我现在所做的方向便是那个语言和图像了解,比较相关的学科是数学。我现在做的东西需求厚实的数学根底做支撑。

讲个自然语言处理里最简略的东西:语言模型。语言模型便是依据人类的自然语言不断学习,去仿照人类说话。比方咱们平常用的输入法,你输入完一个词之后他会给你提示你可能需求的下一个词的内容。

带你了解自然语言处理文本生成方向

语言模型学习的过程中就像小朋友学说话相同,不断取得句子,不断学习这个词下边最可能接什么话,就这样,当咱们训练出一个好用的语言模型的时候,咱们就能够让它帮咱们说话。现在很火的语言模型比方GPT-3啊之类的。

NLG VS NLU

自然语言处理有两个重要的分支:

  • 自然语言生成(Natural language generation,NLG)

    将文本潜在表明转化为详细的、自洽的自然语言文本。

  • 自然语言了解(Natural language understanding,NLU)

    对输入文本进行消歧概括,取得能表达文本中心思想的规范化表明。

浅显来讲, 自然语言了解的方针是让机器能够更好地了解人类说的话,可是自然语言生成的方针是让机器能够像人相同说话。

自然语言生成的使用十分广泛,比方对话体系(各种chatbot)、数据增强、故事生成等等。

想起来之前咱们做的一个作业,其时是要控制细粒度的情感进行生成。然后咱们考虑了一下使用远景。

我:所以控制文本生成情绪干嘛呢?做水军吗?

看一下文本生成几个简略的比如:

故事生成

带你了解自然语言处理文本生成方向
第一个比如是故事生成,给模型一段话,模型依据这段话中的故事线关键词进行生成,要求生成的内容是要能符合这些关键词的,而且还要依照关键词给出的次序进行生成。

给定文本: 今日好高兴能吃到甜品,感觉自己好美好。

故事线: 高兴→好美好

给你几个句子:

  1. 今日我闺蜜给我熬了粥,我好美好啊,我很高兴

    这是不按次序来,这样的故事生成器是不符合标准的。

  2. 高兴能遇到你,我感觉自己好美好

    规定的词用上了,而且次序是对的,这是个好的故事生成器。

  3. 这个猪,咱们能看到里面的瓣膜,(闻一下),好腥啊,我了。

    这种故事生成器,狗都不用!!!

可是如果咱们仔细看了左边那个图咱们会发现,和我上边说的不太相同,由于它:

给定的文本:John needed a computer for his birthday. He worked hard to earn money. John was able to buy his computer. He went to the store and bought a computer. John was happy with his new computer.(约翰过生日需求一台电脑。他努力作业挣钱。约翰买得起他的电脑。他去商店买了一台电脑。约翰对他的新电脑很满意。)

生成的文本:The man was very happy, because he bought a new computer. He went to the store. He needed a computer. He bought the computer. He installed the computer.

能够看到虽然是使用关键词生成了,可是如同并没有依照它要求里写的相同依照关键词次序生成。

谈天机器人

带你了解自然语言处理文本生成方向

右边是一个对话文本生成的比如,咱们能够看到对话内容。

机器人第二句话是要回复上一句,回复的方式千千万。

  • 如果是损友,能够来根烟能够帮她解压。
  • 如果是渣男能够回复“……”或许乱码表明自己无语不想说话。
  • 如果是好朋友应该认真纾解安慰她。

你做谈天机器人是给人添堵的吗?必定不是,所以你要防止呈现第一第二种回复的情况,也便是不要发生毒数据或许无效文本回复,这就涉及到了受控文本生成,也是我现在在做的东西,之后有机会我再讲。

最终说个题外话,多轮对话不能只回复当时这句话,还要考虑之前的内容,所以对话生成当年的一个热点是多轮对话。我感觉天猫精灵的多轮对话做的就能够(天猫精灵快给我打钱),有天猫精灵的朋友们能够试一下,喊了天猫精灵之后喊一句小爱同学。


结语

最终总结一下,我是萝莉安,我是搞人工智能的,再详细一点叫自然语言处理,再详细一点叫文本生成,再详细一点叫可控文本生成