开源社区参数量最大的文生视频模型来了，Tencent版Sora免费使用 [复制链接]

ttxx

军衔等级：

上尉

发表于 2024-12-3 23:39:36 |显示全部楼层

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

想要体验文生视频的小伙伴又多了一个选择！

今日，Tencent宣布旗下的混元视频生成大模型（HunYuan-Video ）对外开源，模型参数量 130 亿，可供企业与个人开发者免费使用。目前该模型已上线Tencent元宝 APP，用户可在 AI 应用中的「AI 视频」板块申请试用。

Tencent混元视频生成开源项目相关链接：

官网：https://aivideo.hunyuan.tencent.com
代码：https://github.com/Tencent/HunyuanVideo
模型：https://huggingface.co/tencent/HunyuanVideo
技术报告：https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

Tencent混元视频生成模型 HunYuan-Video（HY-Video）是一款突破性的视频生成模型，提供超写实画质质感，能够在真实与虚拟之间自由切换。它打破了小幅度动态图的限制，实现完整大幅度动作的流畅演绎。

HY-Video 具备导演级的运镜效果，具备业界少有的多视角镜头切换主体保持能力，艺术镜头无缝衔接，一镜直出，展现出如梦似幻的视觉叙事。同时，模型在光影反射上遵循物理定律，降低了观众的跳戏感，带来更具沉浸感的观影体验。模型还具备强大的语意遵从能力，用户只需简单的指令即可实现多主体准确的描绘和流畅的创作，激发无限的创意与灵感，充分展现 AI 超写实影像的独特魅力。

总的来说，HunYuan-Video 生成的视频内容具备以下特点：

卓越画质：呈现超写实的视觉体验，轻松实现真实与虚拟风格的切换。
动态流畅：突破动态图像的局限，完美展现每一个动作的流畅过程。
语义遵从：业界首个以多模态大语言模型为文本编码器的视频生成模型，天然具备超高语义理解能力，在处理多主体及属性绑定等生成领域的难点挑战时表现出色。
原生镜头转换：多视角镜头切换主体保持能力，艺术镜头无缝衔接，打破传统单一镜头生成形式，达到导演级的无缝镜头切换效果。

AI 文生图开源生态蓬勃发展，众多创编辑与开发者为生态贡献作品与插件。然而，视频生成领域的开源模型与闭源模型差距较大。Tencent混元作为第一梯队大模型，将视频生成开源，相当于将闭源模型的最强水平带到开源社区，有望促进视频生成开源生态像图像生成社区一样繁荣。

通过Tencent元宝 APP-AI 应用-AI 视频即可使用该功能（前期需申请）

能力展示

HunYuan-Video 在文生视频的画质、流畅度与语义一致性等方面都具有较高的质量。

超写实画质

Tencent混元视频生成模型提示词：超大水管浪尖，冲浪者在浪尖起跳，完成空中转体。摄影机从海浪内部穿越而出，捕捉阳光透过海水的瞬间。水花在空中形成完美弧线，冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

Tencent混元视频生成模型提示词：穿着白床单的幽灵面对着镜子。镜子中可以看到幽灵的倒影。幽灵位于布满灰尘的阁楼中，阁楼里有老旧的横梁和被布料遮盖的家具。阁楼的场景映照在镜子中。幽灵在镜子前跳舞。影片氛围，影片打光。

原生镜头切换

视频由Tencent混元视频生成，提示词：一位中国美女穿着汉服，头发飘扬，背景是伦敦，然后镜头切换到特写镜头

Tencent混元视频生成模型提示词：特写镜头拍摄的是一位 60 多岁、留着胡须的灰发男子，他坐在巴黎的一家咖啡馆里，沉思着宇宙的历史，他的眼睛聚焦在画外走动的人们身上，而他自己则基本一动不动地坐着，他身穿羊毛大衣西装外套，内衬系扣衬衫，戴着棕色贝雷帽和眼镜，看上去很有教授风范，片尾他露出一丝微妙的闭嘴微笑，仿佛找到了生命之谜的答案，灯光非常具有影片感，金色的灯光，背景是巴黎的街道和城市，景深，35 毫米影片胶片。

Tencent混元视频生成模型提示词：一个男人在书房对着电脑，敲打键盘，认真地工作，镜头切换到卧室里，暖黄色的灯光下，他的妻子在床边读着故事书，轻柔地拍着孩子的胸口，哄孩子入睡。温馨的氛围。

高语义一致

一位戴着复古飞行护目镜的机械师，半跪在蒸汽朋克风格的工作室里。她棕色卷发挽成发髻，零星的银色发丝闪着金属光泽。深棕色皮质工装背带裤上沾满机油污渍，袖口卷起露出布满齿轮纹身的手臂。特写她正用黄铜工具调试一只机械鸟，齿轮间冒出缕缕蒸汽，工作台上散落着铜管、发条和老式图纸。

固定机位的老公寓内景，自然光透过纱帘漫射，青色街灯渗入，茶烟袅袅升起，老式家具静静陈列，定格岁月流逝的时光。

采用多种创新技术

加速行业创新步伐

基于Tencent混元的开源模型，开发者及企业无需从头训练，即可直接用于推理，并可基于Tencent混元系列打造专属应用及服务，能够节约大量人力及算力。同时，各大模型研发团队均可基于Tencent混元模型进行研究与创新，加速行业创新步伐。

据技术报告，在混元视频生成模型架构设计与训练中，采用了多个创新技术：包括通过新一代本文编码器提升语义遵循，自研 3D 视觉编码器支撑图像视频混合训练，通过全注意力机制提升画面运镜能力，并根据自研的图像视频 Scaling Law 设计和训练了最优配比模型。

模型方法先容

Hunyuan-Video 是一个综合的视频训练系统，涵盖了从数据处理到模型部署的各个方面。本技术报告先容了大家的数据预处理技术，包括数据过滤算子和重新标注模型，并详细说明了 Hunyuan-Video 所有组件的架构，和大家发现的视频生成模型 scaling law，以及大家的训练和推理策略。

大家讨论了加速模型训练和推理的方法，使得开发一个拥有 130 亿参数的大型模型成为可能，并评估了大家的文本到视频基础模型的性能，与最先进的视频生成模型（包括开源和专有模型）进行了比较。

最后，大家展示了基于预训练基础模型构建的各种应用，并附上相关的可视化效果。

精细的数据处理架构

大家采用自动化数据过滤和人工过滤相结合的方式，从粗到细构建多个阶段训练数据集。在 256p、360p、540p 和 720p 训练阶段，采用各种过滤器对图片、视频数据过滤，并逐步提高过滤算子的阈值。在 SFT 阶段训练阶段，采用人工过滤的方式以充分保障训练数据质量。

该图突出显示了在每个阶段使用的一些最重要的过滤器。在每个阶段，将会移除大量数据，移除的比例从前一阶段的数据的一半到五分之一不等。在这里，灰色条表示每个过滤器过滤掉的数据量，而彩色条则表示每个阶段剩余的数据量。

模型架构设计

首个适配 MLLM 作为文本编码器的视频生成模型，具备强大的语义跟随能力，可以轻松应对多个主体描绘。

在文生图和文生视频等视觉生成模型中，负责处理文本、理解文字的文本编码器起着关键作用。目前行业中大部分的视觉生成模型的文本编码器，适配的主要是上一代语言模型。

混元视频生成是业界适配最新一代大语言模型 MLLM （Multimodal Large Language Model）作为文本编码器的视频生成模型，具备强大的语义跟随能力，更好地应对多个主体描绘，实现更加细节的指令和画面呈现。

文本到视频等生成任务中，文本编码器在隐式表征空间中提供的引导信息起着关键作用。业界常见模型通常使用预训练的 CLIP 和 T5 作为文本编码器，其中 CLIP 使用 Transformer Encoder，而 T5 使用的是 Encoder-Decoder 结构。相比之下，大家利用最先进的多模态大语言模型（MLLM）进行编码操作，它具有以下优势：
（1）与 T5 相比，MLLM 在视觉指令微调后的表征空间中具有更好的图像 - 文本对齐性，这减轻了扩散模型中指令跟随的难度；
（2）与 CLIP 相比，MLLM 在图像细节描述和复杂推理方面有着更加优越的能力；
（3）MLLM 可以通过设计系统指令前置于用户提示来充当零样本学习器，帮助文本特征更加关注关键词。此外，如图 8 所示，MLLM 基于因果注意力，而 T5-XXL 利用双向注意力，为扩散模型产生更好的文本引导。因此，大家遵循的方法，引入了一个额外的双向令牌细化器，以增强文本特征。此外，CLIP 文本特征也是文本信息的摘要。如图所示。大家采用了 CLIP-Large 文本特征的最终非填充令牌作为全局引导，将其整合到双流和单流的 DiT 块中。
—— Tencent混元视频生成模型开源技术报告

通过自研的 3D 视觉编码器支撑混合图片和视频训练 / 先进的图像视频混合 VAE（3D 变分编码器），让模型在重建能力场景有明显提升，具备小人脸和动作的极高上限。

视觉编码器在压缩图片 / 视频数据，保留细节信息方面起着关键作用。混元团队通过自研的 3D 视觉编码器支撑混合图片 / 视频训练，同时优化了编码器训练算法，显著提升了编码器在快速运行、纹理细节上的压缩重建性能，使得视频生成模型在细节表现上，特别是小人脸、高速镜头等场景有明显提升

从头到尾用 full attention（全注意力）的机制，没有用时空模块，提升画面流畅度。

混元视频生成模型采用基于单双流模型机制的全注意力网络架构，使得每帧视频的衔接更为流畅，并能实现主体一致的多视角镜头切换。与「分离的时空注意力机制」分别关注视频中的空间特征和时间特征，相比之下，全注意力机制则更像一个纯视频模型，表现出更优越的效果。其次，它支撑图像和视频的统一生成，简化了训练过程并提高了模型的可扩展性。最后，它更有效地利用了现有的大型语言模型（LLM）相关的加速能力，从而提升了训练和推理的效率。

根据自研的图像视频 Scaling Law 设计和训练了最优配比模型。

Scaling Law 通常用来描述模型性能如何随着模型大小、训练数据和计算资源的增加而变化。在人工智能研究的早期，训练模型往往需要在诸多超参数之间反复尝试，而 Scaling Law 提供了引导如何扩展这些参数的经验公式，使模型达到更好的性能。

Scaling Law 在 AI 领域的应用非常广泛。尤其是在大模型的训练中，帮助科学家们确定，如果需要模型有更好的表现，应该优先增加模型参数、训练数据的规模还是训练计算量。

谷歌、OpenAI 等领先的科技企业对 Scaling Law 进行了大量的探索，这些研究为现代大型 AI 模型的成功奠定了基础。但是多模态模型领域（如图像、视频、音频等）的 Scaling Law 尚没有被真真切切地验证过。

Tencent混元团队在过亿级别的图像视频数据上，较为系统的训练验证了图像视频生成模型的 Scaling Law。根据大家的发现，大家可以准确的设计出最优的模型参数 / 数据 / 算力配比也给了后续学术界和业界开发更大规模模型一个经验公式，到底什么样规模的模型需要多少训练数据和算力，使模型达到更好的效果性能，可以推动业界在视频生成领域的发展。

Tencent混元系列大模型全面开源

从年初以来，Tencent混元系列模型的开源速度就在不断加快。

5 月 14 日，Tencent宣布旗下的混元文生图大模型全面升级并对外开源，这是业内首个中文原生的 DiT 架构（DiT，即 Diffusion With Transformer）文生图开源模型，支撑中英文双语输入及理解，参数量 15 亿，整体能力属于国际领先水平。

11 月 5 日，Tencent混元宣布最新的 MoE 模型「混元 Large」以及混元 3D 生成大模型「Hunyuan3D-1」正式开源。

Hunyuan-Large 总参数量约 389B，激活参数量约 52B，文本长度 256k。这是当前业界参数规模最大、效果排名第一的 MoE 开源模型。其在 CMMLU、MMLU、CEval、MATH 等多学科综合评测集以及中英文 NLP 任务、代码和数学等 9 大维度全面领先，超过 Llama3.1、Mixtral 等一流的开源大模型。

混元 3D 生成大模型则是首个同时支撑文字、图像生成 3D 的开源大模型。一期开源模型包含轻量版和标准版，轻量版仅需 10s 即可生成高质量 3D 资产。该模型在今年年初已在Tencent内部上线发布并应用于实际业务中，如 UGC 3D 创作、商品素材合成、游戏 3D 资产生成等。

本次视频生成大模型的开源，也是Tencent混元拥抱开源，用技术反馈社区的一大成果。至此，Tencent混元全系列大模型已实现全面开源。

Tencent在开源上一直持开放态度，已开源了超 170 个优质项目，均来源于Tencent真实业务场景，覆盖微信、Tencent云、Tencent游戏、Tencent AI、Tencent安全等核心业务板块，目前在 Github 上已累计获得超 47 万开发者关注及点赞。

Tencent混元也会继续保持开放，将更多经过Tencent应用场景经验的模型开源出来，促进大模型生态的繁荣发展。

未来衍生模型和生态插件展示

未来大家会开源更多基于视频创作生态的模型，这里小小剧透一些片段。

视频配音