近日,B 站宣布其开源的动漫视频生成模型 AniSora 迎来了重磅更新,版本升级至 AniSora V3。这一更新不仅提升了生成视频的质量和流畅度,还扩展了动漫风格的多样性,为动漫、漫画和 VTuber 内容创作者提供了更强大的工具支持。

AniSora V3的亮点在于其强大的功能,它能够一键生成多种风格的动漫视频镜头,涵盖从番剧片段、国产动画到漫画改编及鬼畜(MAD)等内容。基于 B 站之前开源的 CogVideoX-5B 和 Wan2.1-14B 模型,V3版本结合了强化学习与人类反馈(RLHF)技术,显著提高了视频的视觉质量和动作一致性。

image.png

具体来说,AniSora V3引入了时空掩码模块,这一优化使得模型在处理复杂动画任务时更为出色。例如,用户可以通过简单的提示,如 “五位女孩在镜头放大时起舞”,生成流畅且自然的舞蹈动画,镜头与角色动作的同步表现极佳。此外,V3版本还扩展了数据集,利用超过1000万个高质量动漫视频片段进行训练,确保生成内容在风格和细节上的一致性。

硬件方面,AniSora V3新增对华为 Ascend910B NPU 的支持,基于国产芯片进行训练,推理速度提升约20%。用户生成4秒视频的时间仅需2-3分钟,效率大幅提升。同时,V3在多任务处理能力上也有显著增强,支持从单帧图像生成视频、关键帧插值及唇部同步等功能,特别适合快速制作漫画改编和 VTuber 内容。

最新的基准测试显示,AniSora V3在角色一致性和动作流畅度方面达到了业内顶尖水平,尤其是在处理复杂的动画动作时表现尤为出色。此外,V3还引入了针对动漫视频生成的 RLHF 框架,确保生成内容更符合人类的审美需求。开发者们也开始利用 V3创建定制化插件,进一步提升特定动漫风格的生成效果。

AniSora V3不仅在技术上取得了突破,还为创作者们提供了一个极具潜力的创作平台。无论是制作预告片还是短篇动画,它都能帮助用户快速实现自己的创意。

开源地址:https://github.com/bilibili/Index-anisora/tree/main