C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  上尉

注册:2007-10-2911
发表于 2025-3-3 15:37:31 |显示全部楼层

机器之心发布

机器之心编辑部

国际可重构计算领域顶级会议 ——FPGA 2025 在落幕之时传来消息,今年的最佳论文颁发给了无问芯穹和上交、清华共同提出的视频生成大模型推理 IP 工作 FlightVGM,这是 FPGA 会议首次将该奖项授予完全由中国大陆科研团队主导的研究工作,同时也是亚太国家团队首次获此殊荣。

亚星游戏官网-yaxin222



这项工作首次在 FPGA 上实现了视频生成模型(Video Generation Models, VGMs)的高效推理,也是该团队继去年在 FPGA 上加速大语言模型 FlightLLM(FPGA’24)后的最新系列工作。与 NVIDIA 3090 GPU 相比,FlightVGM 在 AMD V80 FPGA 上实现了 1.30 倍的性能提升与 4.49 倍的能效提升(峰值算力差距超过 21 倍)。

亚星游戏官网-yaxin222



论文链接:https://dl.acm.org/doi/10.1145/3706628.3708864

论文第一编辑刘军是上海交通大学博士生,共同一作曾书霖是清华大学博士后,通讯编辑是汪玉和戴国浩。汪玉是 IEEE Fellow、清华大学电子工程系教授、系主任和无问芯穹发起人,戴国浩是上海交通大学副教授、无问芯穹联合创始人兼首席科学家。

上一轮清华电子系相关工作被 FPGA 国际会议收录应追溯到 2016 年的 Going Deeper with Embedded FPGA Platform for Convolutional Neural Network 与 2017 年 ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA。前者催化了深鉴科技的创立,后者被 FPGA 国际会议评为当年唯一的最佳论文,随后深鉴科技于 2018 年被可编程芯片厂商赛灵思以 3 亿美金收购。

在大模型部署成本争议甚嚣尘上的产业背景下,以 FPGA、ASIC 等灵活可编程硬件和专用任务集成电路来提升硬件运行效率,或将成为大模型落地效率提升与成本降低的最关键一环。2024 年,无问芯穹曾以大语言模型定制推理 IP FlightLLM 被 FPGA 高评价录取,今年再次以 VGM 模型定制推理 IP FlightVGM 拿下最佳论文奖,都是在通过创新硬件架构提升效率。据悉,这一系列研究成果现已被集成到无问芯穹自研大模型推理 IP LPU(Large-model Processing Unit)之中,并已与合作伙伴开展合作验证。

下面是论文的核心内容解读。

背景

在视频生成领域,扩散 Transformer(DiT)逐渐成为一种重要的框架。DiT 模型通过一个扩散过程生成视频,它将噪声图像逐步恢复为清晰的视频帧,从而展现了强大的生成能力。最初,DiT 被提出是为了探索在大规模数据处理中的可扩展性,随着技术的不断发展,DiT 的架构也不断被优化,逐步提高了生成视频的质量和分辨率,使得生成的视频更加清晰、精细。尽管如此,这种方法的计算需求非常高,尤其是在生成高分辨率和较长时长的视频时,所需的计算量和内存消耗大幅增加,因此如何提升生成效率并优化计算过程,成为该领域的关键问题之一。

核心见解:从视频压缩到视频生成

视频压缩技术(如 H.264、H.265)通过离散余弦变换(DCT)等技术,识别并消除视频帧间和帧内的冗余信息,从而实现高达 1000 倍的压缩率。这一思想的核心在于,视频数据在时间和空间维度上存在大量重复模式,例如相邻帧之间的背景几乎不变,或同一帧内的纹理具有高度相似性。通过检测并跳过这些冗余信息,压缩算法能够显著减少数据量,同时保持视频质量。

亚星游戏官网-yaxin222



FlightVGM 创新性地将这一思想引入视频生成模型的加速中。视频生成模型(VGMs)在推理过程中同样表现出显著的时空冗余性。例如,相邻帧之间的 Token 在语义上高度相似,而同一帧内的不同区域也可能共享相同的视觉特征。然而,现有 GPU 架构无法充分利用这种冗余性。FPGA 虽然具备稀疏计算的优势,但其峰值算力远低于 GPU,且其计算单元(例如 V80 的 DSP58)的传统设计无法动态适配混合精度需求,限制了其在视频生成加速中的应用。FlightVGM 通过以下三项技术,解决上述挑战:

1.“时间 - 空间” 激活值在线稀疏化方法:基于视频压缩中的相似性检测思想,FlightVGM 设计了帧间和帧内的冗余激活稀疏机制。通过余弦相似度计算,动态跳过相似部分计算,显著降低了计算负载。

2.“浮点 - 定点” 混合精度 DSP58 拓展架构:借鉴视频压缩中的分块处理思想,FlightVGM 对视频生成模型的不同模块进行精度分层处理。关键模块(如注意力机制)保留 FP16 精度,非关键模块(如线性层)量化至 INT8,最大化硬件利用率。

3.“动态 - 静态” 自适应调度策略:针对激活值在线稀疏化导致的负载不均衡问题,FlightVGM 针对实际工作负载自适应调整不同操作负载的实行顺序,从而提高计算利用率。

亚星游戏官网-yaxin222



技术要点

“时间 - 空间” 激活值在线稀疏方法

亚星游戏官网-yaxin222



亚星游戏官网-yaxin222



激活稀疏化包含两个步骤:帧间稀疏化和帧内稀疏化。

1. 帧间稀疏化:大家将输入激活分为 G 个连续的组,并选择中间帧作为参考帧。剩余帧的 token 与参考帧的 token 逐一计算相似度,若超过阈值,则使用参考帧的 token 计算结果替代当前 token。

2. 帧内稀疏化:大家将每帧的 token 分为 K 个块,选择中间 token 作为参考 token,计算其他 token 与参考 token 的相似度,若超过阈值则用参考 token 替代计算。如果某 token 已在帧间稀疏化中被裁剪,其相似度为 0。

亚星游戏官网-yaxin222



“浮点 - 定点” 混合精度 DSP58 拓展架构

AMD V80 FPGA 配备了硬件 IP DSP58,支撑多种计算模式,如标量、向量和浮点配置。然而,由于这些配置之间无法在运行时进行动态切换,这与视频生成模型对数据的混合精度的需求存在冲突,导致大家无法充分利用 DSP58 的计算潜力。

亚星游戏官网-yaxin222



为了解决这一问题,大家提出了基于 DSP58 的创新性 FP16-INT8 混合精度硬件架构 ——DSP-Expansion (DSP-E)。该架构允许在运行时配置,支撑两个 FP16 乘加单元(MAC)或四个 INT8 乘加单元。大家的核心思路是通过引入额外的乘法器来解决当一个 DSP58 实行两个 FP16 分数乘法时的数据混淆问题,这些乘法器在 INT8 模式下也可以复用。在 FP16 模式下,DSP58 实行两个 MAC 的分数乘法,并通过减去 INT8 乘法器的结果来获得正确的中间计算结果。中间结果的指数部分通过 INT 加法器计算,并通过指数对齐和调整单元对齐小数点位置,最终通过加法、归一化和四舍五入得到最终结果。在 INT8 模式下,DSP-E 通过复用 DSP58、两个 INT8 乘法器和两个 INT 加法器,最大化计算性能。通过将相关数据输入到不同的端口,额外的逻辑单元可以复用硬件资源,从而有效地提高了计算吞吐量。

亚星游戏官网-yaxin222



为了在计算精度和硬件资源的约束下实现最大吞吐量,大家提出了一个异构的 DSP58 阵列设计,以适应不同的计算需求。大家根据不同设计的资源消耗(包括 DSP、LUT、REG、RAM 等)进行评估,并通过资源约束来确保最优计算性能。此外,大家还考虑了 INT8 与 FP16 计算性能的比值,以衡量计算能力的提升。

实验结果

算法评估

与基准模型相比,FlightVGM 对于模型精度的影响几乎可以忽略(仅平均损失为 0.008),而使用全 INT8 量化时,平均损失为 0.042。同时,在实际视频生成效果上,FlightVGM 生成的视频与原始模型仍有较好的保持。

亚星游戏官网-yaxin222



性能评估

对于 NVIDIA 3090 GPU,在 FP16 精度下,AMD V80 FPGA 的峰值算力差距超过了 21 倍。然而,基于 V80 FPGA 实现的 FlightVGM 仍在性能和能效上超过了 GPU。这是因为 FlightVGM 充分利用了 VGM 固有的稀疏相似性和混合精度数据分布特性,并通过软硬件协同开辟了 “算法 - App - 硬件” 的全新优化空间并成功在其中找到了一个足够好的解。而 GPU 由于硬件架构的限制,难以达到相同的加速效果,且缺乏稀疏化和定制化计算数据流优化的支撑。

亚星游戏官网-yaxin222



展望和未来工作

随着 VGM 计算需求的增长,FlightVGM 展示了如何通过 FPGA 的软硬件协同创新,实现更高能效的文生视频大模型推理。未来,通过探索 AIE(AI Engine)+ HBM(High Bandwidth Memory)的全新 FPGA 架构,FPGA 有望为视频生成任务提供更高效的计算支撑,成为未来计算平台的重要选择。


来源:网易

举报本楼

您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2025-4-5 06:25 , Processed in 0.265187 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图