英伟达H100用11分钟训完GPT-3，PyTorch创始人：不要只看时间

赢了，但没有全赢。

昨日，老黄又「赢麻了」！
为啥呢？原来在最新的 MLPerf 基准测验中，英伟达 H100 GPU 芯片组在以下八项基准测验中全部创下了新纪录，一起成为仅有一个跑完所有测验的硬件渠道。
据悉，最新 MLPerf Training v3.0 包含了根据 GPT-3 175B 的大型语言模型（LLM）测验，侧重于生成式 AI 才能。

图源：MLPerf benchmarks。
LLM 练习测验中还运用了专注于 GPU 加速的云计算服务提供商 CoreWeave 提供的 NVIDIA HGX H100 基础设施，在多个规划上联合提交了 LLM 工作负载。
出来的结果令人振奋：在 896 个英特尔 Xeon Platinum 8462Y 和 3584 个英伟达 H100 芯片的协作下，只是用了 11 分钟就完成了根据 GPT-3 的 LLM 练习任务。

一时之间，AI 社区响起了老黄赢麻了的欢呼声。
可结果真如此吗？今日有人对此事提出了质疑。
先是 PyTorch 创始人 Soumith Chintala，他以为 GPT-3 并没有在 11 分钟内练习完成。运用 3584 个 H100 GPU，GPT-3 架构在 C4 数据集上练习了 11 分钟，对数概率为 2.69。
这里不要只关注「11 分钟」，由于这就像说「ResNet-50 在 MNIST（其实这里他想说的是 CIFAR100）上，5 秒内练习达到了 80％的准确率。」

推特用户 @abhi_venigalla 对 Soumith 的观念表示赞同，他是生成式 AI 创业公司 MosaicML 的研究者。他以为 MLPerf 基准测验中练习 GPT-3 的时间更可能是 2 天。
在他看来，该基准测验并不是完好的 GPT-3。MLPerf 的 LLM 基准只提供了一个开端的检查点，然后有必要达到目标损失。
因而，该基准 11 分钟跑完 GPT-3 只覆盖 1.2B 的 token，而非完好的 300B token。此外看起来更像是 540 TFLOPs/H100，从装备上看像 FP8，~27% MFU。
不过他也承认，从 H100 在其软件生命周期早期这一点来看，以此规划完成现在这种功能也相当惊人。

所以，最新 MLPerf 基准测验中 11 分钟训完 GPT-3 是不是被误解呢？评论区的小伙伴也能够宣布下自己的观念。
参考链接：developer.nvidia.com/blog/breaki…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

英伟达H100用11分钟训完GPT-3，PyTorch创始人：不要只看时间

近期文章

近期评论