阿里人工智能 EMO 背后的技术
时间:2024-05-04 08:20:45 来源:网络cs 作者:淼淼 栏目:平台政策 阅读:
作者:苍何,前大厂高级 Java 工程师,阿里云专家博主,CSDN 2023 年 实力新星,土木转码,现任部门技术 leader,专注于互联网技术分享,职场经验分享。
(1)对程序员来说,技术能力和业务逻辑哪个更重要?(2)搭建GitHub免费个人网站(详细教程)(3)itchat实现微信聊天机器人(4)嗖嗖移动业务大厅(源码下载+注释全 值得收藏)
🔥热门文章推荐:
大家好,我是苍何。EMO 也火了一阵了,就官方发布的视频效果来看,是真的很惊艳,但就其技术原理,在其公布的论文里还只是英文的详解。今天,我们从技术的角度来看看阿里 EMO 模型的发布。
EMO 是什么?
EMO,一个富有表现力的音频驱动的纵向视频生成框架。输入单个参考图像和人声音频,例如说话和唱歌,可以生成具有表现力的面部表情和各种头部姿势的人声头像视频,同时,可以根据输入音频的长度生成任何持续时间的视频。
在 EMO 中,通过关注音频线索和面部动作之间的动态和微妙关系,解决了增强说话头部视频生成的真实感和表现力的挑战。阿里团队发现了传统技术的局限性,这些局限性往往无法捕捉到人类表情的全貌和个人面部风格的独特性。为了解决这些问题,他们提出了 EMO,这是一种新颖的框架,它利用直接的音频到视频合成方法,绕过了对中间 3D 模型或面部标志的需求。这个方法能确保无缝的帧过渡和一致。
在整个视频中保持身份,从而产生高度表现力和逼真的动画。实验结果表明,EMO 不仅能够制作令人信服的口语视频,还能够制作各种风格的歌唱视频,在表现力和真实感方面明显优于现有的最先进的方法。
近年来,图像生成领域取得了显著的进步,这主要归功于扩散模型的出现和成功。这些模型以其生成高质量图像的能力而闻名,这要归功于对大规模图像数据集的广泛训练和渐进式生成方法。这种创新方法能够创建具有无与伦比的细节和真实感的图像,为生成模型领域树立了新的基准。扩散模型的应用并不局限于静止图像。人们对视频生成的兴趣日益浓厚,这促使人们探索这些模型在制作动态和引人入胜的视觉叙事方面的潜力。这些开创性的努力凸显了扩散模型在视频生成领域的巨大潜力。
我们知道的 sora 其实底层也是基于 DIT 扩展模型来设计的,所以扩展模型的出现也加速了 AI 视频的发展。下面是 sora 的原理图,我们可以和 EMO 进行对比。不难看出底层基于的扩展模型有一定的差别,sora 使用的是一种新型的扩展模型——DIT,而目前来看 EMO 在稳定扩展模型 SD 的基础上做了一些创新和优化。
除了一般的视频合成之外,以人为本的视频的生成一直是研究的焦点,例如会说话的头部。Talking Head 的目标是从用户提供的音频剪辑中生成面部表情。制作这些表情涉及捕捉人类面部动作的微妙和多样性,这对视频合成提出了重大挑战。传统方法通常会对最终视频输出施加限制,以简化此任务。例如,一些方法使用 3D 模型来限制面部关键点,而另一些方法则从基础视频中提取头部运动序列来指导整体运动。虽然这些限制降低了视频生成的复杂性,但它们也往往会限制生成的面部表情的丰富性和自然性。
EMO 的目标是建立一个创新的会说话的头部框架,旨在捕捉广泛的逼真面部表情,包括细微的微表情,并促进自然的头部运动,从而为生成的头部视频注入无与伦比的表现力。为了实现这一目标,其提出了一种利用扩散模型生成能力的方法,能够直接从给定图像和音频剪辑中合成角色头部视频。这种方法消除了对中间表示或复杂预处理的需求,简化了说话头视频的创建,这些视频表现出高度的视觉和情感保真度,与音频输入中存在的细微差别密切相关。音频信号包含与面部表情相关的丰富信息,理论上使模型能够生成各种富有表现力的面部动作。然而,由于音频和面部表情之间的映射固有的模糊性,将音频与扩散模型集成并不是一项简单的任务。
其可能导致模型生成的视频不稳定,表现为视频帧之间的面部失真或抖动,在严重的情况下,甚至可能导致视频完全崩溃。为了应对这一挑战,EMO 在模型中加入了稳定的控制机制,即速度控制器和面区域控制器,以增强发电过程中的稳定性。这两个控制器充当超参数,充当微妙的控制信号,不会影响最终生成视频的多样性和表现力。此外,为了确保生成视频中的角色与输入的参考图像保持一致,采用并增强了 ReferenceNet 的方法,设计了一个类似的模块 FrameEncoding,旨在在整个视频中保留角色的身份。
最后,为了训练 EMO 模型,团队构建了一个庞大而多样化的音频视频数据集,积累了超过 250 小时的素材和超过 1.5 亿张图像。这个庞大的数据集涵盖了广泛的内容,包括演讲、影视剪辑和歌唱表演,并涵盖了中文和英文等多种语言。丰富多样的口语和演唱视频确保培训材料能够捕捉到广泛的人类表情和声乐风格,为 EMO 的发展奠定坚实的基础。团队在 HDTF 数据集上进行了广泛的实验和比较,这个方法在 FID、SyncNet、F-SIM 和 FVD 等多个指标上超越了当前最先进的 (SOTA) 方法,包括 DreamTalk、Wav2Lip 和 SadTalker。除了定量评估外,EMO 团队还进行了全面的用户研究和定性评估,结果表明,这些方法能够生成高度自然和富有表现力的说话甚至唱歌视频,取得了迄今为止最好的效果。
在 EMO 中,给定人物肖像的单个参考图像,可以生成与输入语音音频剪辑同步的视频,保持自然的头部运动和生动的表情,与所提供的人声音频的音调变化相协调。通过创建一系列无缝的级联视频,我们的模型有助于生成具有一致身份和连贯运动的长时间通话人像视频,这对于实际应用至关重要。
EMO 采用稳定扩散 (SD) 作为基础框架。SD是一种广泛使用的文本到图像(T2I)模型,由潜在扩散模型(LDM)演变而来。它利用自编码器变分自编码器(VAE)将原始图像特征分布x映射到潜在空间z中,将图像编码为z= E(x),并将潜在特征重构为x= D(z)。这种架构的优势在于降低了计算成本,同时保持了高视觉保真度。基于去噪扩散概率模型(DDPM)或去噪扩散隐式模型(DDIM)方法,SD将高斯噪声ε引入潜在z,以产生特定时间步长t的噪声潜在zat。在推理过程中,SD 旨在消除潜在 zand 的噪声ε结合文本控制,通过集成文本特征来达到预期的结果。
整体而言,EMO 的技术还是有不少创新和领先性的,更多的技术细节可以参考官方提供的技术报告:EMO 技术报告
下面列一些 EMO 应用场景
实现同步声音配合:立刻为内容添加配音,增强视听体验。塑造电影与游戏中栩栩如生的人物:为视觉作品中的角色注入生动的表情和丰富的情感,提升故事的沉浸感。打造吸引眼球的教学资源:利用引人注目的互动元素,制作教育内容更加生动和吸引学习者。赋予虚拟助理人性化特质:让技术助手不仅听起来,而且看起来更接近人类,增强用户体验。增添视频会议的魅力和个性:通过创新技术,使远程沟通更加生动和个性化。创作令人印象深刻的营销内容:通过动人心弦和难忘的视频广告,吸引观众注意力,提高品牌影响力。大家可以去看看官网生成的视频,还是很惊艳的,可惜现在开源的 GitHub 仓库还只是个壳子,没法体验。
我是苍何,一个对 AI 应用,人工智能有强烈兴趣,从业多年的软件工程师!如果对我的文章内容感兴趣,请帮忙关注点赞收藏,谢谢!
阅读本书更多章节>>>>创作不易,如果本文对你有帮助,欢迎点赞、收藏加关注,你的支持和鼓励,是我创作的最大动力。
本文链接:https://www.kjpai.cn/zhengce/2024-05-04/164618.html,文章来源:网络cs,作者:淼淼,版权归作者所有,如需转载请注明来源和作者,否则将追究法律责任!