人像动画

共 2 篇网址

排序

发布更新浏览点赞

FLOAT

FLOAT是一种音频驱动的人像视频生成方法，它基于流匹配生成模型，将生成建模从基于像素的潜在空间转移到学习到的运动潜在空间，实现了时间上一致的运动设计。该技术引入了基于变换器的向量场预测器，并具有简单而有效的逐帧条件机制。此外，FLOAT支持语音驱动的情感增强，能够自然地融入富有表现力的运动。广泛的实验表明，FLOAT在视觉质量、运动保真度和效率方面均优于现有的音频驱动说话人像方法。

070

音频处理 # 人像动画 # 人工智能 # 情感增强

TCAN

TCAN是一种基于扩散模型的新型人像动画框架，它能够保持时间一致性并很好地泛化到未见过的领域。该框架通过特有的模块，如外观-姿态自适应层(APPA层)、时间控制网络和姿态驱动的温度图，来确保生成的视频既保持源图像的外观，又遵循驱动视频的姿态，同时保持背景的一致性。

0110

开发者工具 # 人像动画 # 开发编程 # 扩散模型