我报名参与金石方案1期挑战——分割10万奖池，这是我的第21篇文章，点击检查活动详情

Win10截屏文字识别工具；Rust超全学习指南；助理教授/博士生存指南；Stable Diffussion的Mac本地部署版 | ShowMeAI资讯日报

日报合辑 | 电子月刊 | 大众号下载材料 | @韩信子

东西&结构

『Nitric』用于快速开发云原生 serverless 运用的结构

github.com/nitrictech/…

nitric.io/

Nitric 是一个用于快速开发云原生和无服务器运用程序的结构。根据你的运用程序所需的资源智能界说，然后为根据无服务器功用的API、事件订阅者和方案作业编写代码。根据 Nitric 构建的运用程序能够方便布置到 AWS、Azure 或谷歌云。

『sio4onnx』ONNX维度改变东西

github.com/PINTO0309/s…

sio4onnx是一个简单的东西，能够用于对ONNX的输入和输出维度进行改变

『Text-Grab』Win10的截屏OCR文字识别东西

github.com/TheJoeFin/T…

apps.microsoft.com/store/detai…

Text-Grab是一个Windows体系上的细巧光学字符识别（OCR）东西，它使一切视觉可见的文本（包括图画、视频、运用程序上的文本）都能够被仿制。Text-Grab会通过文本抓取 “东西 “拍照屏幕，将图画传给OCR引擎，然后将文本放到剪贴板中，接下来你能够轻松在任何地方张贴运用。

OCR的过程是由 Windows API 在本地完结的，因而它没有复杂的用户界面，也不需要一个继续运行的后台进程。

『estela』根据Kubernetes的弹性网页爬虫集群

github.com/bitmakerla/…

estela.bitmaker.la/docs/

estela 是一个运行在 Kubernetes 上的弹性网络爬虫集群。它通过 REST API 和 Web 界面供给了布置、运行和扩展网络爬虫的机制。

『Stable Diffussion Buddy』M1 Mac的Stable Diffussion本地布置版

github.com/breadthe/sd…

Stable Diffussion Buddy是Stable Diffusion的M1 Mac版别的配套桌面运用程序。它供给十分简单的办法生成图画，让你专注于编写提示信息，而不用重视命令行复杂命令。

博文&共享

『How to learn modern Rust』Rust 学习攻略

github.com/joaocarvalh…

Rust 是一种强壮的编程语言，速度快，可编译，将安全性的新概念带入了编程，被 StackOverFlow 用户接连五年评为最受欢迎的语言。这是一个rust学习的具体攻略，包括了 Rust 学习的各种主题与相关材料。

『Track Assistant Professors and PhD students』助理教授/博士生生计攻略

github.com/JunweiLiang…

作为一个刚准备入职的大学助理教授，以及毕业不久的CS博士，作者趁现在开端搜集一些关于年轻助理教授以及博士生都有用的资源和链接，包括项目来历、计算资源性价比比较、经验等。列表包括8个部分，运用中英双语，并继续更新中。

Funding / Grant Resources（国内外教授可申请的资金，以及博士生奖学金）
Social Media / Academic Profiles（会推荐研究工作的大众号和自媒体）
Computational Resources（国内云GPU计算资源的价格以及整机购买的一些对比）
Workshops and Competitions （顶会与竞赛）
How to Run A Lab / Recruit Candidates（怎么招生、怎么办理实验室）
General Advice from Others （其他资深教授、学者的主张）
Awesome Academic Pages （比较好的学术主页）
Awesome Courses （优异、敞开的课程列表）

数据&资源

『Awesome Video Instance Segmentation Papers』视频实例分割相关文献资源列表

github.com/QingZhong19…

『Collaborative Perception』协同感知相关文献列表

github.com/Little-Podi…

研究&论文

大众号回复关键字日报，免费获取整理好的论文合辑。

科研进展

2022.08.20 『图画超分辨率改换』 Diffusion Models: A Comprehensive Survey of Methods and Applications

2022.08.20 『图画生成』 StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation

2022.08.20 『方针检测』 CenterFormer: Center-based Transformer for 3D Object Detection

⚡ 论文：Diffusion Models: A Comprehensive Survey of Methods and Applications

论文时刻：2 Sep 2022

范畴使命：Image Super-Resolution, Text-to-Image Generation，图画超分辨率改换，文本到图片转化

论文地址：arxiv.org/abs/2209.00…

代码完成：github.com/YangLing081…

论文作者：Ling Yang, Zhilong Zhang, Shenda Hong, Runsheng Xu, Yue Zhao, Yingxia Shao, Wentao Zhang, Ming-Hsuan Yang, Bin Cui

论文简介：Diffusion models are a class of deep generative models that have shown impressive results on various tasks with a solid theoretical foundation./分散模型是一类深度生成模型，在各种使命上显示出令人印象深入的成果，并具有坚实的理论基础。

论文摘要：分散模型是一类深度生成模型，在各种使命上显示出令人印象深入的成果，具有坚实的理论基础。虽然比起最先进的办法，分散模型已经显示出成功，但它往往需要昂贵的采样程序和次优的似然估量。为了提高分散模型在各方面的性能，人们做出了巨大的尽力。在这篇文章中，咱们对分散模型的现有变体进行了全面的回忆。具体来说，咱们供给了分散模型的分类法，并将其分为三种类型：采样-加快增强、似然-最大化增强和数据-概括增强。咱们还介绍了其他生成模型（即变异自动编码器、生成对立网络、归一化流、自回归模型和根据能量的模型）并讨论了分散模型和这些生成模型之间的联系。然后，咱们回忆了分散模型的运用，包括计算机视觉、自然语言处理、波形信号处理、多模式建模、分子图生成、时刻序列建模和对立性净化。此外，咱们提出了与生成模型的发展有关的新观点。Github: github.com/YangLing081…

⚡ 论文：StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation

论文时刻：13 Sep 2022

范畴使命：Image Generation, Story Continuation, 图画生成

论文地址：arxiv.org/abs/2209.06…

代码完成：github.com/adymaharana…

论文作者：Adyasha Maharana, Darryl Hannan, Mohit Bansal

论文简介：Hence, we first propose the task of story continuation, where the generated visual story is conditioned on a source image, allowing for better generalization to narratives with new characters./因而，咱们首要提出了故事接连的使命，即生成的视觉故事是以源图画为条件的，从而能够更好地推广到有新人物的叙事中。

论文摘要：最近在文本到图画组成方面的进展导致了大型的预练习transformers，它具有从给定文本生成可视化的超卓能力。但是，这些模型并不适合像故事可视化这样的专门使命，它要求署理发生一连串的图画，给定相应的标题序列，形成一个叙说。此外，咱们发现，故事可视化使命不能习惯对新的叙说中未见过的情节和人物的概括。因而，咱们首要提出了故事接连的使命，即生成的视觉故事以源图画为条件，答应更好地泛化到有新人物的叙说中。然后，咱们增强或 “改装 “预练习的文本-图画组成模型，使其具有特定的使命模块，用于（a）接连的图画生成和（b）从初始帧中仿制相关元素。然后，咱们探索对预练习模型进行全模型微调，以及根据提示的参数有用习惯的调整。咱们在两个现有的数据集PororoSV和FlintstonesSV上评估了咱们的办法StoryDALL-E，并介绍了一个新的数据集DiDeMoSV，该数据集是从一个视频字幕数据集中搜集的。咱们还开发了一个根据生成对立网络（GAN）的故事接连模型StoryGANc，并与StoryDALL-E模型进行比较，以证明咱们办法的优势。咱们表明，咱们的逆向拟合办法在故事接连方面优于根据GAN的模型，并且有利于仿制源图画中的视觉元素，从而提高了生成的视觉故事的接连性。最终，咱们的剖析表明，预练习的transformers在理解包括多个角色的叙事时很困难。总的来说，咱们的工作表明，预练习的文本-图画组成模型能够习惯复杂的、低资源的使命，如故事的接连。

⚡ 论文：CenterFormer: Center-based Transformer for 3D Object Detection

论文时刻：12 Sep 2022

范畴使命：3D Object Detection, object-detection，方针检测

论文地址：arxiv.org/abs/2209.05…

代码完成：github.com/tusimple/ce…

论文作者：Zixiang Zhou, Xiangchen Zhao, Yu Wang, Panqu Wang, Hassan Foroosh

论文简介：It then uses the feature of the center candidate as the query embedding in the transformer./然后，它运用中心提名人的特征作为改换器中的查询嵌入。

论文摘要：根据查询的transformer在许多图画范畴的使命中显示出巨大的潜力，但由于点云数据的巨大尺度，根据LiDAR的三维物体检测很少被考虑。在本文中，咱们提出了CenterFormer，一个用于三维物体检测的根据中心的transformer网络。CenterFormer首要运用中心热图来挑选根据标准体素的点云编码器的中心提名人。然后，它运用中心候选者的特征作为transformer中的查询嵌入。为了进一步汇总来自多个结构的特征，咱们设计了一种通过穿插留意来融合特征的办法。最终，加入回归头来预测输出中心特征表示上的边界盒。咱们的设计降低了收敛难度和transformer结构的计算复杂性。成果显示，与无锚物体检测网络的强壮基线比较，有明显的改进。CenterFormer在Waymo敞开数据集上的单一模型完成了最先进的性能，在验证集上有73.7%的mAPH，在测验集上有75.6%的mAPH，大大超过了以前发表的一切根据CNN和transformer的办法。咱们的代码可在 github.com/TuSimple/ce… 上揭露查阅。

咱们是 ShowMeAI，致力于传播AI优质内容，共享行业解决方案，用知识加快每一次技术成长！

◉ 点击 日报合辑，在大众号内订阅论题 #ShowMeAI资讯日报，可接纳每日最新推送。

◉ 点击 电子月刊，快速阅读月度合辑。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Win10截屏文字识别工具；Rust超全学习指南；助理教授/博士生存指南；Stable Diffussion的Mac本地部署版 | ShowMeAI资讯日报