阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!


新智元报道

编辑:Aeneas 好困

【新智元导读从声响到个性,ta 跟鸟鸟真是傻傻分不清楚。

说来你或许不信,咱们这两天都和脱口秀艺人「鸟鸟」在一起。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

咱们来问问 ta,上一年笑果文明最出圈的梗之一:「你知道虾系男友吗?」

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

ta 当即秒答:「听说最近网上流行的虾系男友梗,指的是身段好但脸蛋不太美观的男生,就像虾相同只需求去掉头就能够食用了,这个词语最近因为脱口秀艺人李诞在节目中自曝网友的整活而爆火。」

某诞拿着虾线来找你了 音频: 进度条 00:00 00:33 撤退 15 秒 倍速 快进 15 秒

仔细听这个声响,你猜是不是鸟鸟本鸟?

「鸟鸟」来新智元了?

1.很有个性

没听出来?那就让咱们问一个能够精确「定位」鸟鸟的问题:你是个内向的人吗?

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

过一会儿,鸟鸟特有的语调慢悠悠地响起:「是的,我是一个内向、社交惊骇的女孩,我常常感到无存在感,乃至在台上也不敢体现自己,可是,我并不因此而自卑,反而希望经过我的扮演来协助更多像我相同的人,让他们知道:在咱们内心深处,也有着异乎寻常的存在和价值。」

社恐也 ok 啦 音频: 进度条 00:00 00:23 撤退 15 秒 倍速 快进 15 秒

嗯,我相信你是真鸟了。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

正好,前段时刻鸟鸟去了米兰,咱们不如就让 ta 来分享一下体会吧。

「我最近去了意大利米兰参加时装周,参加了一个十分风趣的活动。尽管严重,脚疼,可是收获了许多。我还去看了米兰大教堂,十分震慑。我认为,意大利和我的家乡内蒙古很像,很亲热。」

去米兰参加了时装周 音频: 进度条 00:00 00:20 撤退 15 秒 倍速 快进 15 秒

2.作文大师

听起来很风趣的样子,那能不能以此为题材写一篇作文呢?

ta 游刃有余、信手拈来:「当我走在米兰的街道上,我似乎置身于一个文艺复兴年代的国际,那里有着许多古老而又现代的建筑,它们象征着米兰历史悠久的文明与艺术。我看到许多画家在这里创造,他们用自己的笔触描绘出米兰的美景,让人感受到一种无法言说的陶醉。」

米兰,无法言说的陶醉 音频: 进度条 00:00 00:24 撤退 15 秒 倍速 快进 15 秒

假如要求给这篇作文起个标题,ta 稍加思索,便信口开河——

《怎样让米兰之旅,成为你终身最夸姣的回忆》。真是文采斐然啊!

诶,小编忽然有了一个主意……

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

上一年,鸟鸟得了上一届脱口秀大会的亚军,以无比精妙的文本折服了观众。那让咱们问问 ta:「怎样判断一个脱口秀艺人水平的凹凸呢?」

ta 答复说:「首先看艺人的诙谐感是否强,能够制造出笑点和趣味,其次看艺人是否能够掌握好节奏和节意图整体气氛,让观众能够跟随艺人的思路走,终究看艺人是否能够掌握好自己的心情和表达,能够精确地传达自己的观念和情感。」

论怎样点评一个脱口秀艺人 音频: 进度条 00:00 00:23 撤退 15 秒 倍速 快进 15 秒

说得好,志胜看了都想点赞。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

作为脱口秀艺人,怎样少得了谐音梗的考验呢?

咱们给 ta 读了一个笑话:「虾和蚌一起考了一百分,老师问虾你抄的谁的,虾说:『我抄蚌的。』老师说:『你棒什么棒。』」

ta 立马秒懂,表明哈哈哈。

谐音梗难不倒我,我超蚌的 音频: 进度条 00:00 00:25 撤退 15 秒 倍速 快进 15 秒

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

3.科普小能手

有时分,咱们的脑子里或许会突然蹦出一些千奇百怪的问题。比方,地球与太阳的间隔是多远?

话音刚落,答案就来了:「最近间隔是 1.471 乘以 10 的 11 次方米,最远间隔是 1.521 乘以 10 的 11 次方米,均匀间隔是 1.496 乘以 10 的 8 次方千米。」

能够的,答复十分精确。

地球间隔太阳有多远? 音频: 进度条 00:00 00:15 撤退 15 秒 倍速 快进 15 秒

再问一个:「生物为什么要进化为雌雄异体?」

ta 会说:「雌雄异体是为了防止基因缺点遗传,因为雌雄异体在进化中更有优势,好的变异会取得生存或繁殖的优势,不好的变异淘汰。」

论雌雄异体的必要性 音频: 进度条 00:00 00:12 撤退 15 秒 倍速 快进 15 秒

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

有意思的是,这个答案和知乎上的某个答复很像,看来 ta 是会自己搜索的。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

来自知乎答主「不惑不弃」

还有一个常常让小编百思不得其解的问题:物理方程式为什么往往很简短?

ta 告诉咱们:「这是因为,物理方程式往往捕捉到了自然界中最基本、最根本的物理规则和规律,并用最简略、最清晰的办法进行描绘。」

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

4.当你 Emo 时

张狂的三月刚过,小编现已累到快要被卷趴,只想躺平。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

问问 ta,躺和卷该怎样选呢?

ta 答复说:「躺和卷不是一个选择题,而是评论劳与逸。(要)在正确的赛道合理地卷,心态积极地卷,有价值地卷。」

要合理地卷,积极地卷,有价值地卷 音频: 进度条 00:00 00:10 撤退 15 秒 倍速 快进 15 秒

诶?有阿兰 德波顿那味了,小编不禁陷入沉思……

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

此外,假如你跟 ta 卖萌,说自己最近「难过得像个 200 斤的橘猫」时,ta 还会安慰道:

「哎呀,听起来你真的很不开心啊,看来你需求一些时刻来调整你的心情了,不知道你为什么难过,是遇到了什么困难吗?我能够和你分享一些我自己的阅历和主意,或许推荐一些好玩的综艺节目。」

不开森,求安慰 音频: 进度条 00:00 00:22 撤退 15 秒 倍速 快进 15 秒

5.会自动接话

乃至有一次小编们在办公室评论,「内向是鸟鸟脱口秀中常常用到的梗」,ta 居然自动接话了——

「是的,我确实常常在脱口秀中用到这个段子。脱口秀中最能体现一个人的个性和特色,除了自己的故事和阅历,还需求有自己的观念和情绪,才干引起观众的共识和笑声……」

瞬间震动整个编辑部。

不只如此,当 ta 精彩作答后,假如你夸 ta 凶猛,ta 还会自豪地说:「嗯呐,谢谢你的夸奖,我便是喜爱答复一些奇奇怪怪的问题。」

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

15 天训出「鸟鸟分鸟」

说了这么多,咱们其实早就猜到这是个 AI 了吧。

那么,这只鸟鸟分鸟是怎样诞生的呢?

练习进程

1. 运用一个全新的阿里大模型版本做根底学习

第一步,便是先用大规模言语的预练习,做一个根底的学习,这是一个层次化的练习办法。

这一步,也是在模仿人类的学习进程,先学简略的常识,再学杂乱的,逐步增加难度。

这一进程中,运用了大规模语料,模型能够阅读文本、说话通畅,一起,也学到了一些通识性的常识。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

2. 学会运用一些东西,获取最新的常识

不过第一步之后,研究人员也发现了一些问题:现在每天都有很多新增的常识在发生,今天学的东西,或许明天就会过期。怎样办呢?

所以,与其让大模型把一切常识记下来,不如学会运用东西,自己着手丰衣足食。

现在,鸟鸟分鸟现已学会了调用搜索引擎,即使在模型练习完结之后发送的新事,它也能对答自如啦。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

3. 个性化的对话增强:多轮、启发式

在有了常识增强和东西增强的根底上,第三步,便是做个性化的对话增强。

也便是说,给分鸟加上一个「个性」。

在这个进程中,它需求去学习什么是多轮对话,什么是启发式的对话。难点在于,多轮对话常常需求很久曾经的历史信息。

另一方面,便是给它刻画品格的标签词。一起,研究人员还少量标注了鸟鸟的一些语料,作为个性化的增强和调优。

经过了第三步,这个模型现已比较像鸟鸟了。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

4. 根据人类反应的增强(RLHF)

怎样让它更像鸟鸟呢?便是经过人类反应强化学习(RLHF)。

对于同一个问题,让模型给出多个不同答复,作业人员会去做反应和标注,然后让模型进一步纠偏。

多轮迭代后,模型的答复越来越能代表鸟鸟的一些文本特征,乃至是她的特定立场。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

变成产品

比及把模型训出来之后,想变成完整体的「天猫精灵」,还需求搞定几个方面的算法 + 工程的作业:

1.听见

模型要顺利变身产品,还得听清并听懂用户说的话——语音转文本。

这个进程,采用的便是天猫精灵的猫耳算法。

猫耳的特色便是,能够分辨的误差十分活络,并且不同当地发出声响时,耳朵还会独立旋转,精确定位出不同的声援。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

猫耳算法中,有两个侧重处理的问题。

第一个是回声消除。

设备在房间里播放时,会发生许多回声,这些回声会发生搅扰。

研究人员会经过深度学习,结合一系列技能,做回声的消除,保证机器听到的每一句话,都是来自人的话。

第二个是定向拾音。

机器上有麦克风阵列,当咱们唤醒时,它会识别到主讲人的位置在哪里,像猫耳相同当即转向,精准地捕捉人声。

一起,还用降噪的办法消除非人声的声响,比方家里的电视机声响,或是远处的人说话。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

2. 音色

天猫精灵学会「听见」之后,接下来便是让它的音色更像鸟鸟。

这就得益于达摩院自研的声学模型。

曩昔要定制一个人的声响,进程十分杂乱,或许需求去录音棚里录 20 小时以上的录音,做很多的人工标注,再去做模型的调优和布置。能够说,从前的定制声响,是以年为周期的。

并且,这么费了这么大的人力和物力,出来的声响依然机械感明显,很明显是机器人。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

而现在,使用达摩院 KANN-TTS 的定制化方案,只收集了一小时左右的有用鸟鸟录音,并且能够随时随地用手机去录。录完声响到练习完结,才花了一周左右。

并且,终究出来的声响自然度和拟人度都让人惊喜,十分挨近鸟鸟自己的音色。

并且接下来,还会有一个心情音色算法,假如鸟鸟愿意,机器会发出热情澎湃的嗓音。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

3. 文风

音色学会了,接下来便是文风。

心理学上有一个理论,叫做标签效应。比方,当一个人被咱们贴上内向标签的时分,他或许就会逐步变得话少,让自己的行为和标签共同。

在大模型中,也能够用相似的做法,运用性格标签词汇,来描绘一个人。

实验中,呈现了一些十分风趣的现象。

当设置模型角色是开畅、诙谐的人物时,不只在对话的时分就常常会笑,并且假如问喜爱什么电影,还会答复是喜剧片。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

而贴上郁闷、丧的标签后,模型对许多事情都丧失了爱好。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

当模型的标签是温柔体贴、善解人意时,它在对话中就会更多说到家人,比方答复周末想干什么,它会说我想陪同家人。

在技能上,有两种做法。

第一叫做 Plug&Play。这种情况下,大模型自身仍是通识的大模型,但会经过一个外挂的模块去判别风格,让它说话更像鸟鸟。

第二种,便是根据大模型做 prompt 的办法,让它学习不同品格标签的风格。

而在练习鸟鸟分鸟时, 就用了脱口秀艺人、90 后、内蒙人、有深度、诙谐、内向等标签。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

4. 对话

而这个演示版天猫精灵,和曩昔的版本有些不相同,这就触及到了双工对话的差异。

曾经,人和机器的声响是不能重叠的,人问一个问题时,机器会等待人讲完,才会回复。机器回复时,人也有必要等它讲完,才干说下一句。

而在全双工的加持下,机器就能够和人做双向的互动了。

比方你跟机器说话时,它会说「嗯」,「让我想一想」之类的接受句子

别的,假如机器答复的进程中太过话痨,你能够随意打断,只要咱们一说话,它就会停下来倾听。

因为时延十分低,很挨近真人对话的时延,是一种更双向的交互。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

给智能帮手换个「脑子」

自从 ChatGPT 出来之后,各路网友纷繁使出洪荒之力,想把 ChatGPT 整进 Siri 里。

比方,这位小哥就使用该模型解析人类发送的指令,然后由 Siri 代为履行,构建出一个无敌的智能家居体系。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

「我老婆正在开车回家,估计 15 分钟到家。」 「好,到时外面的灯会为她翻开。」

毕竟相比于 ChatGPT,苹果的 Siri、亚马逊的 Alexa 等传统语音帮手,确实是弱爆了。

对此,微软 CEO 纳德拉有个十分形象生动的比方——「笨得像石头相同」。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

和为了追逐 ChatGPT 几乎悍然不顾的谷歌不同,亚马逊并不觉得自己落后了。

十多年前,贝佐斯在亚马逊总部的白板上兴奋地勾勒出他对 Alexa 的期待。彼时,亚马逊创始人还对语音操控新核算渠道有着宏伟的愿景——构建一个星际迷航核算机,能够对话、操控飞船、处理数学难题。

但现在,愿景显然已失败。尽管现已卖出了数亿台内置帮手的数字设备,Alexa 仍未达到亚马逊创立下一个科技大渠道的目标。贝佐斯曾不惜一切代价发展 Alexa,乃至甘愿亏本。

而上一年 11 月面世的宠儿 ChatGPT,更显得 Alexa 的立异停滞不前。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

不过,亚马逊在用一种很新的办法迎候新年代。Alexa 的言语能力比不上聊天机器人,聊天机器人无法操控智能家居设备,那么,假如二者做一个结合呢?

打不过就参加,最近几个月,亚马逊现已在与 AI 初创公司接洽,准备将相似 ChatGPT 的技能整合进 Alexa。

那么,假如咱们直接在「原生」的 IoT 设备中,参加类 ChatGPT 大模型,岂不是更强?

这么看的话,天猫精灵假如能大规模 OTA 新的交互体系,确实就很超前了。

以人为中心的 AI 管理

最近,在要不要中止研发比 GPT-4 更强的 AI 这件事上,各路大佬吵得那叫一个不可开交。

而争辩的焦点便是 AI 的安全性问题——公开信认为,现在没有任何人能够了解、预测、操控这些 AI,连它们的创造者都不能。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

马斯克和 LeCun 直面互怼,可不常见啊(战术后仰)

其实,形成这一现象的本源就在于:

  1. AI 的技能特色使它具有了自己的价值观,尽管和人类的不相同,但早已脱离了技能中性的范畴;

  2. AI 的另一个技能特色使它成为了社会的界面,而任何缺乏监管的界面根底设施都将导致不公平。

问题来了,假如说 AI 是一个黑箱,那么咱们又该怎样断定它是否向善呢?

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

对此,来自清华大学穿插信息学院的研究者于洋表明,答案就在 AI 的审计和管理之中。现在,他的团队也在与天猫精灵团队共同合作 AI-ESG 范畴的研究。

现在来说,相关范畴进行的研究都是环绕人来打开的,其意图便是保证人在信息年代,特别是人工智能年代能取得平等和公正的对待。

为了完成这一点,于洋教授的团队提出了一种根据因果推断的 AI 全生命周期管理审计办法。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

具体来说,团队经过因果推断的分析办法发现,AI 模型实际上在编码层,就现已将性别、种族这些标签和工作进行了关联。

一些文献认为,假如编码层不这样做,AI 模型的功能就会下降。会呈现这种现象的原因在于,现在纠正成见的办法是,在练习时的奖励函数上加一些要求,但凡模型呈现成见就「扇它一耳光」。

与之相对的,假如咱们一开始就告诉它不能把人标签化,那么终究得到的模型,不只大幅降低了成见呈现的风险,并且在部分使命的功能还有所上升。

归根到底,便是怎样教育 AI 的问题——光靠打骂是不行的,还得跟 AI 讲道理。

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!

由此咱们不难看出,审计不只能够协助发现问题,一起也能够增强 AI 的透明性、可解释性,并改进 AI 的体现。

那么对于搭载了大模型的智能终端来说,技能审计的重要性也就显而易见了。毕竟从这个技能演示看,有一天假如咱们像鸟鸟那样,具有自己的一个独特的大模型,也纷歧定是幻想了。

参考资料:

www.theinformation.com/articles/am…

阿里 GPT 15 天训出「鸟鸟」嘴替,比 ChatGPT+Siri 刺激多了!