Stable Diffusion半秒出图;VLIW的前世今生;YOLOv5全面解析教程 | AI系统前沿动态

1. Stable Diffusion采样速度翻倍!仅需10到25步的分散模型采样算法

自研深度学习编译器技能的 OneFlow 团队更是在不下降采样作用的前提下,成功将之前的 “一秒出图” 缩短到了 “半秒出图”!在 GPU 上只是运用不到 0.5 秒就可以取得一张高清图片!

这基于清华大学朱军教授带领的 TSAIL 团队所提出的DPM-Solver,一种针对于分散模型特殊规划的高效求解器:该算法无需任何额外练习,一起适用于离散时刻与接连时刻的分散模型,可以在 20 到 25 步内简直收敛,而且只用 10 到 15 步也能取得十分高质量的采样。在 Stable Diffusion 上,25 步的 DPM-Solver 就可以取得优于 50 步 PNDM 的采样质量,因此采样速度直接翻倍。

链接:

mp.weixin.qq.com/s/vr5Pw6rc3…

2. 比快更快,Stable Diffusion完成一秒出图

起先,AI 作图需求几天,再缩减到几十分钟,再到几分钟,出图时刻在不断加速,问题是,究竟快到什么程度,才会在专业的美术从业者乃至一般大众之间遍及开来?

显然,现在还无法给出详细答案。即便如此,可以确认的是 AI 作图在技能和速度上的突破,很或许现已接近乃至超过阈值,由于这一次,OneFlow 带来了字面含义上 “一秒出图” 的 Stable Diffusion 模型。

链接:
mp.weixin.qq.com/s/KqffXfRhL…

3. VLIW的宿世此生:为什么DL加速器都青睐于它

现在,许多主攻云端推理和练习市场的产品,在说到根底架构时都会宣扬其自定义的矢量运算指令集,大发射位宽,高度的并行履行能力。这些名词背面的底层结构简直都是VLIW。被Intel收购的Habana就大方声称选用自定义的VLIW的指令集。
虽然VLIW结构在之前的几十年只能算是取得了“十分有限的效果“,但就目前的深度学习处理器架构开展而言,从头回顾下VLIW的特征以及其成功和失败的事例仍然是很有含义的,也许这也是AI规划的一种或许方向。

链接:

zhuanlan.zhihu.com/p/101538383

4. 深挖Cerebras:世界上最大AI芯片的架构规划

作为业界备受重视的AI加速器创业公司,成立于2016年的Cerebras期望经过构建全新AI加速器计划处理AI核算问题,以完成数量级核算性能:首要,需求改善核算核心架构,而不只是一味地提升每秒浮点运算次数;其次,需求以逾越摩尔定律的速度提高芯片集成度;最终,还要简化集群衔接,大幅度提升集群核算效率。

为了完成上述方针,Cerebras规划了一种新的核算核心架构。它让单台设备运转超大规模模型成为或许,此外,它开宣布只需简单数据并行的横向扩展和本地非结构化稀疏加速技能,使大模型的使用门槛大幅下降。

链接:

mp.weixin.qq.com/s/_JmINzust…

5. 关于AI芯片软件栈的六条感悟

链接:

zhuanlan.zhihu.com/p/582706007

6. AI编译关键技能 • 高层循环编译优化 – 不只是是分块和合并

如何借助编译优化理论和方法,将核算图描述的深度学习算法布置在详细硬件上并让算法高效运转,是学术界和工业界一个重要的研究课题。更多深度芯片编译技能内容在清华大学出版社新书《多面体编译理论与深度学习实践》中。

链接:

mp.weixin.qq.com/s/mBheJ9NG8…

7. TVM for DSA的一些总结

目前TVM/MLIR等开源AI编译器生态有一定起色,所以进入了TVM的坑(端侧对TVM的承受度更高)。对于TVM来说,针对CPU/GPU等通用架构做了许多优化工作。咱们的开发没有走BYOC道路(本身也没有现成编译软件栈,都需求0-1造一切轮子),所以就像CPU/GPU那样走relay->te->tir->(llvm)->dsa的路子,想沿用TVM上各种优异的feature。

链接:

zhuanlan.zhihu.com/p/571045566

8. OneFlow源码解析:Global Tensor

上文中讲到的类似于PyTorch中的一般Tensor,在OneFlow中称为Local Tensor。Local Tensor是单卡视角下的一般Tensor。与之相对,OneFlow中还有一个独有的概念——Global Tensor。Global Tensor是指被placement和SBP属性所指定的,一个大局视角下的逻辑Tensor。Global Tensor的shape是逻辑形状,其实在数据依据placement和SBP的规则分布在多个rank上。

Global Tensor既可以经过一般的Local Tensor经过tensor.to_global()转化得到,也可以直接用数据或Numpy来构造。

链接:

mp.weixin.qq.com/s/bVaz0DQki…

9. 李白:你的模型权重很不错,可惜被我没收了

按照现在的趋势来说,模型越来越大了,大到一张GPU乃至装不下完整的模型,有必要得上分布式并行技能,但是分布式代码在许多结构下都是高度定制化的,对于新手来说根本读不懂,也不知道应该怎样运用,导致我们上手十分的困难,让自己珍贵的发际线显得愈加珍贵。

针对大模型上述存在的痛点,导致咱们有必要上分布式(数据并行、模型并行、流水并行)才能跑起来一个大模型。那么,LiBai有哪些特点呢?

链接:

mp.weixin.qq.com/s/zWsB-iL0g…

10. 一个更快的YOLOv5面世,附送全面中文解析教程

作为核算机视觉范畴的根底性技能,方针检测在业界具有广泛使用,而YOLO系列因其归纳性能较好,成为广受欢迎的首选结构。

这次,为了让用户深化了解 OneFlow 练习方针检测模型的可行性以及性能的优越性,咱们将Ultralytics 版YOLOv5经过 import oneflow as torch 的方法搬迁为 OneFlow 后端。

相比PyTorch,目前 YOLOv5 在 OneFlow 上进行小 batch 练习时有 5%-10% 的性能优势,而练习大 batch 的性能与 PyTorch 持平。

链接:

mp.weixin.qq.com/s/imTnKQVWc…

11. 关于AI大模型的一点思考和评论

我们似乎都沉浸在大模型欣欣向荣、歌舞升平的状况中,大多数工业界的场景中,大模型并不能直接发挥价值。在不同的使命里还是要依据实际场景去谈详细的模型和算法,不主张逢处理计划就提大模型,也不主张把大模型当成一个首要的技能计划去忽悠不是特别懂这一块技能的人,事实上在学术界的论文中也不会有人说咱们用一个Big Model处理了一切问题。

未来大模型应该可以在2.c所提的方向上继续发力,但必定也会演变出来一系列千奇百怪或优或劣的AI架构,大浪淘沙,去伪存真。

链接:

zhuanlan.zhihu.com/p/580745171

12. 直播预告|LiBai:开源大规模预练习模型库及开发实践

LiBai(李白)模型库一个基于OneFlow的开源大规模模型工具箱,覆盖了 Hugging Face、Megatron-LM、DeepSpeed、FairSeq 这些一切主流Transformer库的优点,为用户供给了“开箱即用”的深度学习大模型体会。目前,LiBai已支持BERT、GPT、ViT、Swin-Transformer、T5 等常见大模型,以及MoCoV3、MAE等最新研究,开箱即用,而且可以很方便地在下流使命上进行微调。

11月24日(本周四)19:00,LiBai核心作者程鹏将首要介绍大规模预练习模型的开发生态,并比较主流的Transformer模型库,之后重点讲解开源大规模预练习模型库LiBai的研发方针、克服的困难。最终,程鹏也将展示基于LiBai的大模型开发流程。

报名链接:

mp.weixin.qq.com/s/Td3LZjwxB…

欢迎下载体会 OneFlow v0.8.0 最新版本:
github.com/Oneflow-Inc…

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。