关于 ChatGPT 的一切;CUDA 入门之矩阵乘;PyTorch 2.0 发布|AI 系统前沿动态

1.截止现在,关于 ChatGPT 的全部

ChatGPT 是 GPT3 的一大腾跃,就像 GPT3 自身是 GPT2 的质的腾跃相同。现在,关于 ChatGPT 的解读内容数量和种类繁复,让人跟上非常困难,容易患错失恐惧症。因此,作者整理了一个笔记,并测验给出一个连贯、简练的 ChatGPT 阅览摘要,协助读者更为明晰和简练地了解 ChatGPT。

链接:

lspace.swyx.io/p/everythin…

2. ChatGPT 会成为下一代搜索引擎吗?

作为智能对话系统,ChatGPT 最近爆火,都火出技能圈了,网上到处都在转 ChatGPT 相关的内容和测验比如,作用确实很震撼。

那么,ChatGPT 到底是采用了怎样的技能,才干做到如此超凡脱俗的作用?已然 ChatGPT 功用如此强大,那么它可以替代 Google、百度等现有搜索引擎吗?假如能,那是为什么,假如不能,又是为什么?

链接:

zhuanlan.zhihu.com/p/589533490

3. PyTorch 2.0 来了!100%向后兼容,一行代码将练习提速 76%

新版本的重要进步体现在速度和可用性,并且彻底向后兼容。PyTorch 团队表示,PyTorch 2.0 是他们向 2.x 系列迈出的第一步,其稳定版预计在 2023 年 3 月初发布。

首先,PyTorch 2.0 引入了 torch.compile,这是一种编译形式,可以在不更改模型代码的情况下加快模型。在 163 个包括视觉、NLP 和其他范畴的开源模型中,该团队发现运用 2.0 可以将练习速度进步 38-76%。其次,PyTorch 2.0 是 100% 向后兼容的:代码库相同,API 相同,写模型的方式也相同。团队之所以称它为 2.0,是因为它有一些标志性的新特性。在官方博客中,PyTorch 团队还公布了他们关于整个 2.0 系列的展望。

链接:

mp.weixin.qq.com/s/NzmUphWdQ…

4. 抢手评论:如何看待 PyTorch 2.0?

链接:

www.zhihu.com/question/57…

5. 打造 TensorFlow 的未来

Google 正着手开发下一个 TensorFlow 迭代,以完成机器学习的下一个十年开展方针。他们正在构建超卓的 TensorFlow 功用,一起专注于四大支柱。

链接:

mp.weixin.qq.com/s/8SlhtLY9m…

6. 北大河图发布分布式练习神器 Galvatron,一键完成大模型高效主动并行

实际上,大模型的分布式布置是一个非常复杂的问题,现在的绝大多数的分布式练习系统,都依赖用户人工反复测验以及系统专家经历来进行布置,造成严重的资源利用功率低下的问题,与真实的 “主动并行” 存在相当大的差距。根据此,北大河图团队提出了一款分布式练习神器 Galvatron,以完成大模型的高效主动并行,研讨论文当选世界顶会 VLDB 2023。

链接:

mp.weixin.qq.com/s/levwBKhbp…

7. 如何高效完成矩阵乘?万文长字带你从 CUDA 初学者的视点入门

矩阵乘作为现在神经网络核算中占比最大的一个部分,其快慢会明显影响神经网络的练习与推断所消耗的时刻。尽管现在市面上已经有非常多的矩阵乘的高效完成——如根据 CPU 的 mkl、根据 arm 设备的 ncnn 与 emll、根据 CUDA 的 cublas ——把握了矩阵乘优化的思路不只能协助你更好地了解编写高性能代码的一些基本原则,并且许多神经网络加快范畴进阶的技巧如算子交融都是与矩阵乘交互从而到达更高的性能。

因为矩阵乘的性能优化与两个矩阵的形状有着非常亲近的联系,因此,为了下降本文的撰写难度(以及辅助读者更好的了解矩阵乘优化),本文将从一个 CUDA 初学者的视点来论述如何优化一个形状较大的正方形乘正方形的 FP32 矩阵乘。

链接:

mp.weixin.qq.com/s/rWWx0Uf4o…

8. OneFlow-ONNX v0.6.0正式发布

OneFlow-ONNX v0.6.0 正式发布。新版本提高了转化接口的易用性,开发了多个新特性,并新增支撑 6 种模型以及 20 多种算子,此外,还修复了 6 个转化进程中的 bug。更新详情请查看链接:
github.com/Oneflow-Inc…

链接:

mp.weixin.qq.com/s/Ntv4x6cpt…

9. 比快更快,开源Stable Diffusion改写作图速度

前不久,OneFlow 首度将 Stable Diffusion 模型加快至“一秒出图”年代,随后 AI 社区开启一场 AI 作图的竞速“内卷”。近日,OneFlow 又改写了 SOTA 记载。

值得一提的是,在优化和加快 Stable Diffusion 模型的进程中运用了 OneFlow 自研编译器,不只让 PyTorch 前端搭建的 Stable Diffusion 在 NVIDIA GPU 上跑得更快,并且也可以让这样的模型在国产 AI 芯片和 GPU 上跑得更快。

链接:

mp.weixin.qq.com/s/zwZHX_8Ji…

10. 一文弄懂 Diffusion Model

最近 AI 绘图非常的火,其背面用到的核心技能之一就是 Diffusion Model(扩散模型),尽管想要彻底弄懂 Diffusion Model 和其间复杂的公式推导需要把握比较多的前置数学知识,但这并不阻碍咱们去了解其原理。本文要点去解说什么是 Diffusion Model。

链接:

mp.weixin.qq.com/s/G50p0SDQL…

11. 清微智能 CTO 欧阳鹏:架构立异是通往高性能核算芯片必由之路

宏观层面,咱们看到了国外的限制镇压,国内方针的扶持,整个芯片产业的沸腾。芯片关于高新技能、前沿科技开展的重要性不言而喻。而在微观层面,中国芯片产业一直在不断进行技能测验。面临数据爆破的大算力年代,传统芯片架构的核算瓶颈有待打破,而在前沿架构的探索上,中外公司不谋而合地挑选了数据流驱动的可重构架构。

那么,可重构核算架构为何可以成为应对大算力年代的最佳技能道路?又是如何统筹高能效比、软硬件灵敏可重构与可扩展性的?现在该架构的落地难点在哪里、落地情况如何呢?

链接:

zhuanlan.zhihu.com/p/585314244

12. 大模型狂潮背面:AI基础设施的“老化”与改造工程

鲜少有人提及,庞大的模型给现有的 AI 基础设施和开发流程带来了许多实际性挑战。大模型的权重可达 100+GB,而现在的开发东西却还没跟上,运用起来非常吃力,布置时往往要等上好几分钟乃至好几小时,这已经成为 AI 工程师的隐痛,不但浪费工程师的时刻,下降工作功率,还会拖慢迭代速度。

致力于 AI 基础设施东西研制的 Modular 团队认为,开发人员的工作功率是练习和布置模型的最大本钱之一。因此需要不断优化东西链,提高前期用户的体会,也方便开发人员。

链接:

mp.weixin.qq.com/s/j0m1ag0nY…

13. ONNX新特性大解读和最佳实践分享

12 月 8 日晚 20:00 OneFlow 结构开发工程师、ONNX 核心成员 @大缺弦 介绍 ONNX 和周边东西的新特性,ONNX 模型转化和布置的最佳实践,一起他也介绍了深度学习结构 OneFlow 与 OpenMMLab 的适配工作。

链接:

www.bilibili.com/video/BV13P…

欢迎 Star、试用 OneFlow 最新版本:
github.com/Oneflow-Inc…