FLOAT

2周前发布 1 00

FLOAT是一种音频驱动的人像视频生成方法,它基于流匹配生成模型,将生成建模从基于像素的潜在空间转移到学习到的运动潜在空间,实现了时间上一致的运动设计。该技术引入了基于变换器的向量场预测器,并具有简单而有效的逐帧条件机制。此外,FLOAT支持语音驱动的情感增强,能够自然地融入富有表现力的运动。广泛的实验表明,FLOAT在视觉质量、运动保真...

收录时间:
2025-05-29

FLOAT是一种音频驱动的人像视频生成方法,它基于流匹配生成模型,将生成建模从基于像素的潜在空间转移到学习到的运动潜在空间,实现了时间上一致的运动设计。该技术引入了基于变换器的向量场预测器,并具有简单而有效的逐帧条件机制。此外,FLOAT支持语音驱动的情感增强,能够自然地融入富有表现力的运动。广泛的实验表明,FLOAT在视觉质量、运动保真度和效率方面均优于现有的音频驱动说话人像方法。

数据统计

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...