(相关资料图)
阿里云近日推出了一款名为Live Portait的数字人视频生成工具。用户只需上传一张照片和一段文本或语音,就能生成一段能开口说话的数字人视频。这项功能可应用于视频直播、聊天机器人、企业营销等场景,目前已在魔搭社区创空间开放体验。随着对话大模型和AI绘画模型的热度不减,业界对生成式AI的研究逐步朝更多模态的方向演进,其中AI视频生成技术备受关注。这项技术能将文本或音频等信息转换为面部运动信息,进而驱动生成照片人物形象的动画,有效降低了视频拍摄和制作的门槛。Live Portait工具由运动模块和生成模块组成,采用阿里云自研的口型预测算法,使得生成的口型准确度大幅提高。在训练阶段,工具增加了姿态的显式控制,无需底板视频也可以生成任意动作的视频,大幅提升了数字人说话的真实感。此外,通过眼神主动控制技术,Live Portait可以为眼球增加一些自然运动,使得生成结果在观感上更接近真人效果。据了解,Live Portait相关技术已被CVPR、ICCV等国际AI顶会收录。在魔搭社区上,用户在上传照片后,可选择文本驱动和音频驱动两种方式,文本驱动模式下,该工具提供了普通话、英语、粤语、童声等28种声音。此外,Live Portait还提供了轻量模型选择,帮助用户更快速生成视频。阿里云的工具算法负责人张邦表示:“Live Portait集成了团队多项自研创新技术,例如仅需单张图片就能生成逼真的面部动画,突破了传统对抗生成网络的局限。随着技术的进一步迭代,图生视频有巨大的应用空间,有望成为企业降本增效的生产工具。”据悉,该团队研究方向涵盖数字人、3D模型AI生成、高真实感渲染、自然人机交互等领域,目前已发表50多篇国际顶会论文。