零一万物黄文灏：没有做出Sora的几点反思；大模型一千零一问；Mistral不愧欧洲之光；微软生成式AI入门课(第2版)

零一万物黄文灏：没有做出Sora的几点反思；大模型一千零一问；Mistral无愧欧洲之光；微软生成式AI入门课(第2版) | ShowMeAI日报

日报&周刊合集 | 生产力东西与行业运用大全 | 点赞重视谈论托付啦！

近期大模型更新消息一览：Sora 影响涟漪犹在，Mistral 无愧欧洲 LLM 之光

法国大模型草创公司 Mistral AI 发布 Large 和 Small 两款大模型**

mistral.ai/news/mistra…

体会网址 chat.mistral.ai/chat

继推出 Mixtral 8x7B、Mistral Medium 后，Mistral AI 这次发布了功用比肩 GPT-4 的旗舰大模型Mistral Large，以及针对低延迟和本钱优化的新模型 Mistral Small。

依据 Mistral AI 官网的消息，Mistral Large 在行业内公认的基准测验中表现超卓，仅次于 GPT-4，成为经过 API 供给的全球第二顶尖模型。

Mistral Large 调用办法

Plateforme：Mistral AI 在欧洲根底设施上安全托管的接入点，使开发者能够运用广泛模型范围创立运用和服务

Azure：在 Azure AI Studio 和 Azure 机器学习上，供给与 API 同样流畅的用户体会 (表示现已与 Microsoft 开展协作)

自我布置：模型可布置于客户自己的环境中，适用于最灵敏用例，并供给模型权重访问

Pika Labs 正式上线唇形同步功用，生成视频里的人物能说话了

twitter.com/pika_labs/s… | 观看视频

目前对 Pro 用户敞开，体会地址：pika.art/home | 一线测评

2月27日，Pika 官推正式宣布上线 Lip Sync (唇形同步) 功用，也便是 Pika 生成的视频中，人物说话时口型和声音能对上，直接一步到位。这样，生成者就能够决议视频中的人物说什么话、具体用什么风格说话了！

阿里巴巴视频生成结构 EMO，音频+图像即可生成视频，面部表情和口型都能对的上

humanaigc.github.io/emote-portr… | 观看视频

阿里巴巴提出了一个音频驱动肖像视频生成结构EMO，只需求输入一张参考图像和语音音频 (例如说话和歌唱)，就能够生成具有面部表情、各种头部姿态的视频，而且还能够依据输入视频的长度生成恣意时长的视频。

有了这个模型，那让图片歌唱或说话就彻底不成问题啦！链接给出的例子显现，不同言语、不同风格、快慢节奏等等，EMO 都能够处理得很好！

一个小插曲是，EMO 今天被AI社区里的同伴们骂惨了，首要原因是演示作用如此炸裂但 GitHub 项目却是空的… 有点「空口无凭」的等候落差感

可是这个空GitHub 现已1K Star 了而且还在快速增长中！不来凑个热烈嘛 github.com/HumanAIGC/E…

Google DeepMind 发布 Genie：110 亿个参数，依据图片和提示词生成 2D 游戏

sites.google.com/view/genie-…

论文地址 arxiv.org/pdf/2402.15…

Sora 平地炸响一声雷后，Google 快速跟上了节奏，发布了可动作操控的国际模型 Genie，能够依据图像和提示生成可操作的二维国际。简单说便是，Genie 既能够将任何图像转换成可玩的二维国际，也能够让人类规划的草图等创作绘声绘色。

而关于 Sora 和 Genie 的区别，大约能够这样了解 (来自知乎答主 @普通)：

Sora做的是：你给他一个prompt，比方生成一段在森林里顶蘑菇的视频，然后它就会在一段时刻内给你供给一个顶蘑菇的视频。

Genie做的是：你给他一张顶蘑菇的截图，给你一个游戏手柄，然后图片会动起来，动的逻辑会跟你手柄的操作逻辑是共同的。

这俩有本质上的不同，Sora是端到端的，你供给prompt，它供给视频，中间没有交互；Genie供给了交互的机会，理论上你不停，储存满足，电力不停，那视频就会一直持续。

这也是Genie名字的来历Generative Interactive Environment（生成式可交互环境）。

在巴黎赛纳河左岸与梵高聊谈天：Hello Vincent！

www.musee-orsay.fr/en/articles…

弥补一份背景常识：奥赛博物馆（Muse d’Orsay）坐落法国巴黎赛纳河左岸，具有国际上最丰厚的印象派和后印象派艺术收藏品，收藏精品包含加雷特磨坊舞会、梵高的自画像以及莫奈的蓝色睡莲等等

前段时刻，法国奥赛博物馆举办了「Van Gogh in Auvers-sur-Oise (梵高在奥弗尔-苏瓦)」主题展，主办方在出口处设置了一个「Hello Vincent」智能运用程序，能够让参观者经过麦克风与梵高进行对话互动。

正如视频所示，梵高坐在他的「Wheatfield with Crows (麦田上的鸦群)」画作前，一边说话一边运动着手臂和膀子，回答提出的问题。

想象一下！刚看完主题展就能够与画家「本人」进行沟通！这沉溺感！这冲击力！ 观看视频

进一步查找了这款运用的研制公司 Jumbo Mana，他们在推上发布「Hello Vincent」依据梵高约 900 信件训练而成，并经过多幅梵高自画像生成了逼真的 3D 人物形象。

感觉这类运用场景很靠谱啊！把 Charater.ai 里受欢迎的对话模式搬迁到了线下，而且就设定在博物馆展览刚刚结束、参观者意犹未尽的时分。是一次既风趣又有教育含义的测验哇~

Image to Music：运用AI把图片生成音乐 (可免费体会)

imagetomusic.top | 检查图片并收听音乐片段

Image to Music 是一个免费的AI东西，能够依据上传的图片生成符合调性的音乐片段 (10s左右)。

官网支撑免费体会哦！甚至不用登录 (需求魔法)！上传图片，从 MAGNet、AudioLDM-2、Riffusion、Mustango、MusicGen 几个模型中挑选一个，然后等候 1-2 分钟就能够听音乐啦！！

看网站弹框显现的进程消息，应该是先用 image caption 了解图像，然后生成与音乐相关的提示词，最后生成音乐片段。

用上方图片这个「electronic music」主题的图片试了一下，还是挺精确的！提示词精确捕捉到了风格，音乐片段也是动感十足 | 检查图片并收听音乐片段

零一万物黄文灏：没有做出 Sora 的几点反思 & Sora之后视频生成怎么做

zhuanlan.zhihu.com/p/683185877

弥补一份背景：黄文灏是零一万物的技能副总裁及Pretrain负责人，曾先后任职于微软亚洲研究院和智源研究院；他的知乎账号很活跃，推荐 Follow~

红博士在 去魅Sora: OpenAI 鲜肉小组的小试牛刀 这篇文章中，依据技能报告和揭露信息猜想了 Sora 的算法结构，而且以业内视角分析了背面核心人员的开展途径。文章把专业和通俗两个方面统筹的十分好，推荐阅读！

跟上 Sora 进展没多难

黄文灏在文章中也表达了和红博士相同的观点：仔细看 Sora 的技能报告会发现，其实没太多东西，跟上 Sora 的进展也没有多难

Sora = Magvit + DiT + NaViT + Video Caption，技能上没有太多的立异，但工程上做了许多的作业

要给年轻人满足的算力，这个是现在大模型公司最难决策的事，找到那些年轻人，解决安排问题

Sora 不是国际模型，不一定用了UE数据

没有做出Sora的几点反思

零一万物从去年10月开始做视频生成，在技能道路挑选上与 Sora 根本共同，但成果和Sora有一些距离。那为什么又是 OpenAI先做出了 Sora 呢？

技能开展的速度比想象中快许多。在视频生成技能范畴，原预计技能迸发需求一年时刻，但实际开展速度远超预期，仅三个月就呈现了Sora。这表明在技能预判时，应该愈加激进地缩短预期时刻，以保持竞争力

需求把方针定高两个台阶。由于对技能老练速度的低估，导致方针设定没有满足前瞻性。在技能快速开展的背景下，应将方针设定得更高，直接以逾越当时领先者为方针，而不是逐渐追逐

做更多「由于信任所以看到」的事。在技能开展中，应更多地依据信念采纳行动，而不是只是依据现已看到的成果。

Sora之后视频生成怎么做

途径一：用最快的速度去复现Sora。当有人给出了一个办法能够做到很高的水平的时分，即使中间缺乏许多细节，follow一条有大体结构的路，把里边的细节一点点补上

途径二：有更好的视频生成计划吗？如果没有，就直接scale up，跳过复现Sora的阶段。如果有，那这个计划是什么呢？

ELAD GIL 关于大言语模型 (LLM) 的一千零一个问题：带你纵览AI全局

blog.eladgil.com/p/things-i-…

文章作者是一位大佬：Elad Gil 是一位十分超卓的企业家和出资者，曾任职谷歌并创立了移动团队，兴办的 Mixer Labs 被 Twitter 收买后担任 Twitter 副总裁；他也是许多知名科技公司的出资人和参谋，例如 Airbnb、Figma、Gitlab、Notion、Pinterest、Stripe，以及最近大火的Character、Mistral，Perplexity，Pika 等等。

Elad Gil 这篇「Things I Don’t Know About AI」文章，把 AI 拆成了「Semiconductors (半导体)」「Foundation models (根底模型)」「Infra (根底设施)」「B2B」「Consumer (顾客)」5个板块，并对各部分提出了自己的判别&困惑，并进行了根本解说。

来！让咱们跟随 Elad Gil，一起进行一场沉溺式考虑！

Elad Gil 的几个根底判别 (也便是首先要达到的一致)

大言语模型只分类两类：最先进的前沿大模型(们) & 其他大模型，而且前沿 LLMs 会构成一个寡头商场 (由于大模型实在太太太烧钱了)

前沿 LLMs 的规划不断添加，训练本钱也随之增高，而这些资金的首要来历是云服务商和大型科技公司 (如 Microsoft、Amazon 、Google)，或许体现国家毅力 (如阿联酋 Falcon)；英伟达 NVIDIA 对根底模型公司的出资规划并不高

尽管云服务商是资金来历的大头，但这与其盈利规划比较也不算什么 (例如，Microsoft 出资 OpenAI 100 亿美元，只需求6个星期就能挣回来)

Questions on LLMs

Question：云服务供给商是否在经过其供给的核算或本钱规划，制造少量玩家的王者地位，并经过这种办法确定寡头商场？云服务供给商是 LLM > 根底模型的首要赞助者，其资金支撑或许会对商场动态产生歪曲效应，例如新进入者会因本钱和人才不足而出局，或许云渠道借助大模型实现更高的收入

Question：开源模型是否会推进AI经济从根底模型转向云服务？Meta是否会持续赞助开源模型？如果是，Llama-N 能否追逐到最前沿？

Question：咱们怎么看待模型的速度、价格与功用之间的关系？模型的价值取决于多种因素，高功用但速度较慢的模型、小型但快速且本钱低廉的模型，也各自有其商场定位。

Question：根底模型的架构将怎么演化？具有不同架构的 Agentic Model 是否有开展潜力？其他形式的记忆和推理何时能发挥作用？

Question：政府是否支撑 (或指导其购买) 地区AI获胜者？政府是否会像航空航天范畴的波音/空客那样，对本地模型进行差异化支出？政府是否愿意支撑反映本地价值观、言语等的模型？

Question：我国会产生什么？我国大模型或许会得到本地科技巨子 (如腾讯、阿里巴巴、小米、字节跳动) 的支撑，政府也会持续经过监管和防火墙来支撑本地AI公司的开展；我国开源大模型的开展也值得注意 (如阿里巴巴 Qwen 排名很高)

Question：X.ai (马斯克的AI公司) 会产生什么？开展状况尚不清晰，很或许成为一个不确定因素

Question：Google 前途怎么？Google具有强壮的核算能力、规划和人才，能够快速推进AI技能的开展，在AI范畴的潜力巨大

Questions on Infra Companies

AI Infra 最大的不确定性来自 AI Cloud Stack 及其开展途径，由于草创公司与大型企业对AI云服务的需求差别巨大：草创公司更愿意选用新的云服务商和东西 (如Anyscale、Baseten、Modal、Replicate、Together等)，而大型企业的定制化需求也带来了更多敞开性问题

Question：当时的AI云公司是否需求为大型企业构建他们产品的本地布置 / BYOC / VPN版本？

Question：选用AI云有多少是出于GPU限制 / GPU套利？云服务商遍及缺乏GPU，因此企业正在争相寻觅满足的 GPU 来满足自己的需求，当然这关于具有 GPU云的草创云服务商是好消息

Question：GPU瓶颈何时才能结束？这对新的AI云供给商有何影响？当 GPU 不再是限制，那么具有更多东西和服务的云服务商更简单存活下来

Question：新的AI ASIC (如 Groq) 将怎么影响AI云？

Question：还有什么会被整合到AI云中？它们是否会穿插销售 embedding 和RAG？持续更新？微调？其他服务？这对数据标注公司或其他有堆叠服务的公司有何影响？哪些服务会直接整合到模型供给商，哪些会经过云服务进行整合？

Question：AI云公司有哪些商业模式？面向草创公司，更适合「GPU only」的商业模式，由于他们需求的云资源很少；面向大中型企业，更适合供给开发者东西、API端点、专业硬件等

Question：新的AI云会有多大规划？会成为 Heroku、Digital Ocean、Snowflake、AWS 这样的庞然大物嘛？这类公司的产出规划和运用规划是多少？

Question：随着超长上下文窗口模型的呈现，AI仓库将怎么演化？怎么看待上下文窗口与提示工程、微调、RAG和推理本钱之间的相互作用？

Question：FTC (和其他监管机构) 阻止并购对商场有何影响？在一个活跃对立科技并购的政府下，人们怎么看待退出？AI云自身是否应该在彼此之间整合以整合份额和服务供给？

Questions on Apps

15个月前 ChatGPT 面世；距离模型&技能最近的AI研究员和 infra 工程师更能感知其带来的革命和转变，一般阅历 9-12个月做出辞去职务创业的决议；辞去职务与创业头脑风暴又会花去几个月的时刻 → 所以，咱们很快就能够看到一波运用构建者集中呈现

Question | B2B：在新兴 B2B 运用浪潮中，需求要点重视哪些公司和商场？与草创公司比较，现有大型企业的优势体现在哪些方面？

Question | Consumer：最早的AI产品是面向C端顾客的，例如 ChatGPT、Midjourney、Perplexity、Pika等。可是为什么AI生态系统中2C产品并不多呢？是由于上面提到的时刻延迟吗？

Question | Agents：Agents 能够产生许多许多的作业。那么，哪些是强壮的垂类产品的全国，哪些又是草创公司能够发挥的空间呢？

微软面向初学者的生成式AI课程(第2版)，添加了 RAG、AI Agents 和 Fine-Tuning 等内容

github.com/microsoft/g…

微软去年推出了「Generative AI for Beginners」课程，12末节，帮助十分多的学习者把握了生成式AI的根底常识和开发技能。

前几天，这门课程更新了！官方发布了「Generative AI for Beginners (Version 2)」，不仅对已有章节的概念、作业等进行了更新，还添加了近期热度十分高的 RAG、AI Agents、Fine-Tuning LLMs 等6个新的章节。

课程章节分类「Learn (常识学习)」「Build (动手实践)」两种类型，内容则涵盖了视频介绍、图文解说、示例代码、课程作业、拓宽资源等部分，依旧是学习生成式人工智能根底常识和运用开发技能的首选入门课~

以下是课程核心内容的介绍，有感兴趣的内容，能够开始学习啦：

0. Course Setup

课程设置

[Learn] 怎么设置你的开发环境

1. Introduction to Generative AI and LLMs

生成性人工智能与大型言语模型简介

[Learn] 了解生成性人工智能是什么以及大型言语模型 (LLMs) 怎么作业

2. Exploring and comparing different LLMs

探索和比较不同的 LLMs

[Learn] 怎么为你的用例挑选适宜的模型

3. Using Generative AI Responsibly

负责任地运用生成性人工智能

[Learn] 怎么负责任地构建生成性人工智能运用

4. Understanding Prompt Engineering Fundamentals

了解提示工程根底

[Learn] 实践提示工程最佳实践

5. Creating Advanced Prompts

创立高档提示

[Learn] 怎么运用提示工程技能以改善你的提示成果

6. Building Text Generation Applications

构建文本生成运用

[Build] 运用 Azure OpenAI 构建文本生成运用

7. Building Chat Applications

构建谈天运用

[Build] 高效构建和集成谈天运用的技能

8. Building Search Apps Vector Databases

构建查找运用向量数据库

[Build] 运用嵌入 (Embeddings) 查找数据的查找运用

9. Building Image Generation Applications

构建图像生成运用

[Build] 一个图像生成运用

10. Building Low Code AI Applications

构建低代码人工智能运用

[Build] 运用低代码东西构建生成性人工智能运用

11. Integrating External Applications with Function Calling

与外部运用集成经过函数调用

[Build] 什么是函数调用及其在运用中的用例

12. Designing UX for AI Applications

为人工智能运用规划用户体会

[Learn] 在开产生成性人工智能运用时怎么运用用户体会规划准则

Version 2 新增内容

13. Securing Your Generative AI Applications

保护你的生成性人工智能运用

[Learn] 人工智能系统面对的威胁和风险以及保护这些系统的办法

14. The Generative AI Application Lifecycle

生成性人工智能运用生命周期

[Learn] 办理 LLM 生命周期和 LLMOps 的东西和目标

15. Retrieval Augmented Generation (RAG) and Vector Databases

检索增强生成 (RAG) 和向量数据库

[Build] 运用 RAG 结构从向量数据库检索嵌入的运用程序

16. Open Source Models and Hugging Face

开源模型和 Hugging Face

[Build] 运用 Hugging Face 上可用的开源模型构建运用程序

17. AI Agents

人工智能署理

[Build] 运用人工智能署理结构构建运用程序

18. Fine-Tuning LLMs

微调 LLMs

[Learn] 微调 LLMs 是什么、为什么以及怎么进行

感谢奉献一手资讯、资料与运用体会的 ShowMeAI 社区同学们！

◉ 点击 日报&周刊合集，订阅话题 #ShowMeAI日报，一览AI范畴开展前沿，抓住最新开展机会！

◉ 点击 生产力东西与行业运用大全，一起在信息浪潮里扑腾起来吧！

零一万物黄文灏：没有做出Sora的几点反思；大模型一千零一问；Mistral不愧欧洲之光；微软生成式AI入门课(第2版) | ShowMeAI日报

近期大模型更新消息一览：Sora 影响涟漪犹在，Mistral 无愧欧洲 LLM 之光

法国大模型草创公司 Mistral AI 发布 Large 和 Small 两款大模型**

Pika Labs 正式上线唇形同步功用，生成视频里的人物能说话了

阿里巴巴视频生成结构 EMO，音频+图像即可生成视频，面部表情和口型都能对的上

Google DeepMind 发布 Genie：110 亿个参数，依据图片和提示词生成 2D 游戏

在巴黎赛纳河左岸与梵高聊谈天：Hello Vincent！

Image to Music：运用AI把图片生成音乐 (可免费体会)

零一万物黄文灏：没有做出 Sora 的几点反思 & Sora之后视频生成怎么做

跟上 Sora 进展没多难

没有做出Sora的几点反思

Sora之后视频生成怎么做

ELAD GIL 关于大言语模型 (LLM) 的一千零一个问题：带你纵览AI全局

Questions on LLMs

Questions on Infra Companies

Questions on Apps

微软面向初学者的生成式AI课程(第2版)，添加了 RAG、AI Agents 和 Fine-Tuning 等内容

作者信息

推广

零一万物黄文灏：没有做出Sora的几点反思；大模型一千零一问；Mistral不愧欧洲之光；微软生成式AI入门课(第2版) | ShowMeAI日报

近期大模型更新消息一览：Sora 影响涟漪犹在，Mistral 无愧欧洲 LLM 之光

法国大模型草创公司 Mistral AI 发布 Large 和 Small 两款大模型**

Pika Labs 正式上线唇形同步功用，生成视频里的人物能说话了

阿里巴巴视频生成结构 EMO，音频+图像即可生成视频，面部表情和口型都能对的上

Google DeepMind 发布 Genie：110 亿个参数，依据图片和提示词生成 2D 游戏

在巴黎赛纳河左岸与梵高聊谈天：Hello Vincent！

Image to Music：运用AI把图片生成音乐 (可免费体会)

零一万物黄文灏：没有做出 Sora 的几点反思 & Sora之后视频生成怎么做

跟上 Sora 进展没多难

没有做出Sora的几点反思

Sora之后视频生成怎么做

ELAD GIL 关于大言语模型 (LLM) 的一千零一个问题：带你纵览AI全局

Questions on LLMs

Questions on Infra Companies

Questions on Apps

微软面向初学者的生成式AI课程(第2版)，添加了 RAG、AI Agents 和 Fine-Tuning 等内容

相关文章

看完这一篇，ShardingSphere-jdbc 实战再也不怕了

系统性详解单例模式

Android技术路线经典电子书

彻底了解 npm、cnpm、yarn、pnpm 几种包管理器

作者信息

推广