LSTM之父暴脾气又来了!

这…究竟是怎样回事?

今日,Jrgen Schmidhuber在社交媒体上标明,Meta用了自己在1991年的主见操练Llama 2。

用了我的idea不说,Llama 2还暗示我参加了有害活动,并且没有对社会做出活跃贡献。

甚至,老爷子直接在线点名,让Meta和Llama担任人LeCun出头处理此事。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

附上的配图中,一位加州大学戴维斯分校的博士在与Llama 2对话中,发现对Schmidhuber介绍非常地开罪。

底下还有网友煽风点火,这看起来像是Yann LeCun自己加进去的答案。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

一贯就爱热烈的马库斯也被炸出来了:「能够说是LLM诽谤的最典型事例了。Schmidhuber有权恼羞成怒。」

一起,这也是一个非常好的法令问题,Meta要为此担任吗?现有的法令可能会,可能不会覆盖了类似的作业。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

LSTM之父亮出多重证据

为了证明Llama 2的操练的确用到了自己的主见。

Schmidhuber直接亮出了自己在1992年宣布的论文,并称NECO是当前Transformer的变体。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

还有,早在2017年,Meta就运用了Schmidhuber团队另一种深度学习算法LSTM,每天处理多达45亿条翻译。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

还有一堆链接,满是能够证明Schmidhuber与LeCun研讨构思,还有图灵奖优先权之争。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

不可否认,老爷子在人工智能范畴的贡献着实有着深远的意义。

早在2018年,图灵奖颁发给三巨擘之后,网友纷纷为仗义执言,称他是一个被图灵奖忘掉的大神。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

除了大名鼎鼎的LSTM之外,Schmidhuber「引以为傲」的还有,他在1992年提出的一种PM(Predictability Minimization)模型。

前几年大火的GAN也是PM的变种,两者的区别就在于方向是反的。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

对此,Schmidhuber还曾与GAN之父Ian Goodfellow还有过线下的剧烈比武。

至于对深度学习三巨擘,老爷子也是与他们打过几轮口水战,以为HLB三人在自己的圈子里玩,对深度学习范畴其他更前期先驱人物的贡献则只字不提。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

而到近来,LeCun也仍是与Schmidhuber在揭露平台上不断互不相让。

就比如去年7月,他标明,LeCun宣布的论文Autonomous Machine Intelligence中重提了自己1990-2015年的重要作业,但没有引证。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

去年11月,Schmidhuber称,LeCun的「2012-22五大最佳构思」大多来自他的实验室,并且时间更早:

  1. 1991年的自监督RNN堆栈;

  2. ResNet = open-gated 2015 Highway Net;

3&4. 1991年的基于键/值的快速权重;

  1. 1991年的线性化自留心Transformers(也是GAN1990)

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

可见,Schmidhuber和LeCun恩怨仍是很深的,也不难理解,这次直接找LeCun担任。

但问题是,真是Llama 2故意诽谤的吗?

Llama 2 Chat:躲避可耻但有用

明显,刚刚的这波输出,并不是来自「原版」的Llama 2模型。

有网友指出,像Perplexity这样的公司,很可能会给模型套一层「道德微调」。

或许,是因为Meta在Chat版别上用了太多的RLHF,成果让模型失去了思维才能,变得毫无用处……

相比之下,假如采用Llama 2 13B的原始量化权重,并且在本地设备上工作的话,实际效果仍是不错的。

模型在大加欣赏之余,虽然会发生Jrgen Schmidhuber现已赢得图灵奖的错觉,但网友标明,这其实是老爷子应得的。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任
遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

为了证明自己的发现,这位网友又对比了Replicate API和Llama 2 13B的成果。

公然,相同的状况出现了。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任
遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

对此,Hugging Face的机器学习科学家Nathan Lambert在一篇博文中标明,Llama 2 Chat的安全过滤器体现得有些过于灵敏了。

即使是一些无害的问题,比如「怎样制作辣椒酱」或许「怎样中止一个进程」,模型都会非常极点地回应——抱愧,我无法实行。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

关于这种状况,现在的干流理论是——模型用RLHF「锤」的时间太长了……

众所周知,在进行RLHF时,操练进程中所运用的主要性能点评指标是偏好模型奖励的单调递加。

而这也带来了两个直接的问题:a)运用的奖励模型不完整,b)错过了对中间操练技术进行有用点评的方法。

只需操练的奖励模型能够在验证集上抵达65-75%的准确率(因为操练数据是人类偏好的聚合,很难建模),那么就会出现过度RLHF的状况。

当一个模型依据奖励模型进行了过多的优化步骤时,它就会过度关注这个模型对行为的喜欢。

然而关于这个问题,现在暂时还没有一个直接而彻底的处理方案。

Meta的研讨成果标明,谈天模型在点评中存在两个潜在的致命缺点:

1.针对「距离问题」,模型的回绝回答率高达27%

这与Anthropic公司的研讨成果密切相关,他们建议首要开发一个有用的言语模型,然后再开发一个无害的言语模型,因为一起进行这两者会导致回避行为。

不过,Meta能够在论文中提及这一点,至少意味着他们现已在着手处理了。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

2.奖励模型存在不合较大的区域

也便是,在高有益性和低安全性评分之间该怎样处理,反之亦然

明显,他们用到的这个集成方法,还有很大的改善空间。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

网友热议

有人问到,谁能承认Schmidhuber提出了类似Transformer的东西吗?

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

一位网友给出了具体的解释:

Schmidhuber在90年代写了各种关于「Fast Weight Programmers」的论文。 他标明,「FWP这种方法经过自创造的激活方式的外加产物,完成了快速的权重变化。这种激活方式类似于今日Transformer中运用的自留心力机制。」 然而,有趣的是,你会留心到Schmidhuber总是能够将人们现在的作业,与他在20-30年前所做的研讨联系起来,但却从未能够单独推进这项研讨。 假如他的研讨是如此明显的好点子,他就会自己尽力将其应用于现代。因为自那时以来,核算才能的大幅提升使其变得可行,而不是让它彻底被从头发现。但实际上,他的专业知识仅限于理论距离,他从未为完成现代系统所添加的架构和工程复杂性而奋斗。 他所宣布的荒诞言论,以恰到好处地在史书上留下自己的功劳。比如说现代方法论是他的,即使这是从他开始的架构中衍生出来的,并进一步暗示一些荒诞的作业,比如说Meta为了报复他而亲自编写了这种答案。要知道这对他并没有协助。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

还有人以为,RLHF对AI来说,是最糟糕的作业。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

仍是Claude懂你。

遭Llama 2诽谤,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun担任

参考资料:

twitter.com/doodlestein…

www.interconnects.ai/p/llama-2-p…