Arxiv上一切论文转成Token,加起来不过14.1GB罢了。

这是最新爆火开源方案亚历山大完结的壮举。

事实上,这还仅仅第一步。

他们最终是想要将整个互联网变成Tokens,换言之全都转化成ChatGPT等大模型了解这个国际的方法。

一旦这样的数据集诞生,那岂不是为开宣布GPT-4这样的大模型又新增一大利器,上知地舆下知地舆指日可待了?!

音讯一出,瞬间引发巨大关注。

四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元

网友们赞赏,史诗般的

四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元

四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元

而这背面仅是四个平均年龄20岁的少年发起,目前Arxiv一切论文数据集已经发布,他们将于下周发布嵌入(Embedding)查找平台。

从Arxiv上一切论文开端

超过400万个项目、6亿个token,30.7亿个向量维度。

这个名为亚历山大的开源方案,首先从Arxiv每篇论文上开端。

挑选的方法是嵌入,简略来说,便是将现实国际的各种目标具象成核算机所能了解的向量。

四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元

最经典的例子便是将原始图画表明为灰度像素。

四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元

这种技术最大的特色便是可以表明出人类感知到的语义相似性。

比方,当有10个词表明同一事物时,很难经过关键词查找论文。但嵌入就可以完结,因而很适用于查找、聚类、引荐和分类。

根据实用性和功率的考虑,开发团队只挑选嵌入了论文的标题和摘要。

在测验各种模型之后,最终挑选运用InstructorXL文本嵌入模型,经过简略地提供使命指令,而无需任何微调,适合于多种使命(比方分类、检索、聚类、文本评估等)和范畴(比方科学、金融、医学等)》

下周他们将发布Arxiv查找。目前为止的流程是,首先对100篇最接近的文章进行相似性查找,然后即时核算这些内容的嵌入,并进行第2次更复杂的查找。

最终目标是一整个互联网嵌入方案。

20岁少年的张狂开源方案

之所以要展开这样一次张狂的开源方案,主要有两方面的原因。

一方面是嵌入巨大的价值。国际上许多问题仅仅查找、 聚类、引荐或分类,而这些事情嵌入都十分拿手。而且也如前所述,可以解决一些复杂的难题。

另一方面成本是一次性的且很便宜。大多数情况下无需对同个文件进行二次核算。目前每1亿个Token只需1美元

但他们并没有找到任何敞开的嵌入数据集,因而这样的组织应运而生。

接下来他们还将敞开更多的数据集,而这些均由这些用户自行挑选。在官网上除了已公开的数据集,剩下的几个待开源项目敞开了投票通道。

四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元

值得一提的是,背面是一群平均年龄仅为20岁的少年team完结的。

四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元

而他们的团队姓名同样也很霸气,Macrocosm(宏观国际)联盟。

只要你扩大到满足远,人类就会成为一个单一的生物。

就官方介绍,他们致力于为ChatGPT和其他类似产品构建插件,一起也在开发中心产品,根据大模型的个人研究助理,协助学习、教育和科研。

感兴趣的旁友可戳下方链接了解~

alex.macrocosm.so/download
参阅链接:
[1]www.macrocosm.so/
[2]twitter.com/willdepue/s…
[3]github.com/macrocosmco…
[4]www.pinecone.io/learn/vecto…