夸克AI与浙大联手开源OmniAvata，革新视频生成领域

来源：网络整理 时间：2025-08-03 作者：佚名 浏览量：

近期，我国夸克AI技术团队携手浙江大学，成功推出了一个开创性的开源项目——OmniAvata。该模型是一款处于行业前沿的音频驱动的全身视频生成系统，有望给视频生成技术带来一场颠覆性的变革。

传统上，音频驱动人体运动的技术主要针对面部动作，但普遍存在全身驱动不足的问题，且精确控制较为困难。然而，OmniAvatar的问世，彻底颠覆了这一局面。只需提供一张图片和一段音频，OmniAvatar便能生成相应的视频内容，同时大幅增强了视频中人物唇形与动作的同步精度和流畅度。不仅如此，该模型还具备通过提示词来精确调节人物的动作、表情、环境等关键元素的能力。

此外，在连续生成长视频的过程中，音频引导视频的生成存在一定的难度，这同样构成了一项重大的挑战。为此，OmniAvatar采用了图像嵌入策略和帧重叠技术，旨在保证视频的连续性和角色身份的稳定性。

音视频驱动开发_开源音频编辑软件_

本次的突破不仅表现在产品领域，而且OmniAvatar技术的创新同样值得我们的关注。团队提出了一种全新的基于像素的音频嵌入方法，这种方法能够让音频的特征在模型的潜在空间中以像素的形式直接融入，进而生成更加协调和自然的身体动作，以更好地匹配音频内容。同时，我们实施了多级音频融合技术，将音频数据融入DiT模块的各个阶段，以此保证模型在各个层面都能独立地开展学习过程。

为了克服完整训练及仅对特定层级进行微调所引发的挑战，研究团队另辟蹊径，提出了一种基于LoRA技术的均衡微调方法。此方法通过LoRA技术优化模型适应能力，允许模型在不增加底层模型容量前提下，有效学习音频特征，实现了对视频画质与细节的兼顾。

OmniAvatar作为团队在多模态视频生成领域的初次探索，已在实验数据集上获得了一定程度的验证。然而，其应用水平尚未达到产品级别。展望未来，团队计划在复杂指令处理和多角色交互等方面进行深入研究，以拓宽模型在更多场景下的应用范围。

微信扫一扫分享资讯

上一篇：警惕！日本治安恶化犯罪率激增，中国使下一篇： 8月2日孟景伟调研六尺巷，重走习近平

夸克AI与浙大联手开源OmniAvata，革新视频生成领域

用微信扫一扫