9999色激情
你的位置:家庭伦理 > 9999色激情 > 狠撸撸 字节率先推出超高清文生视频模子,后果比Gen
狠撸撸 字节率先推出超高清文生视频模子,后果比Gen

发布日期:2024-09-28 15:23    点击次数:101

狠撸撸 字节率先推出超高清文生视频模子,后果比Gen

字节率先的征询东说念主员建树了一种超高清文生视频模子MagicVideo-V2狠撸撸。

MagicVideo-V2公布的实验评测数据败露,视频的高清度、润滑度、连贯性、文本语义收复等方面,比当今主流的文生视频模子Gen-2、Stable Video Diffusion、Pika 1.0等更出色。

这是因为,MagicVideo-V2将文生图像、图像生成视频、视频到视频和视频帧插值4种功能整合到一个模子中,措置了之前边临的4浩劫题。

论文地址:https://arxiv.org/abs/2401.04468

神志地址:https://magicvideov2.github.io/

跟着Gen-2等模子的出现,文生视频限制已毕连忙发展,尤其是在这个短视频时期被多半用户应用。关联词在生成的进程中,模子持续濒临4个困难。

视频不好意思不雅,由于多数是接受公开查验数据,生成的视频持续会出现劣质的情况;执行不一致,在生成视频的进程中,无法精确收复文本辅导的执行;

视觉质地和了了度较差:若何将用户的文本辅导,漂泊为高清、精确高质地视频很难;

视频通顺不连贯,多数模子无法在生成的要津帧之间,插入特殊的帧,使视频的通顺愈加当然和连贯性。

是以,字节率先的征询东说念主员径直将4个模块整合在MagicVideo-V2模子中,逐个措置了这些困难。

文生图像

文生图像模块(Text-to-Image, T2I)主要用于接选取户提供的文本描述手脚输入,并生成一个1024×1024像素的图像手脚视频生成的参考图像。这有助于增强视频的执行和好意思学立场。

T2I模子接受基于扩散的生成模子,通过多个迭代法子徐徐生成高质地的图像,同期不错学习到从文本描述到图像的映射关系,从而生成与文本描述相符的致密图像。

图像到视频

该模块基于SD1.5模子,通过东说念主类响应来普及模子在视觉质地和执行一致性方面的才能。图像到视频模块还使用了一个参考图像镶嵌模块,用于欺骗参考图像。

具体来说,征询东说念主员使用了一种外不雅编码器来索取参考图像的镶嵌,并通过交叉把稳机制将其注入到图像到视频模块中。

这么,图像辅导不错灵验地与文本辅导解耦,并提供更强的图像条款。此外,使用了潜在噪声先验计策,通过在肇端噪声潜变量中引入恰当的噪声先验技艺,保留部分图像布局,改善帧之间的时期连贯性。

视频到视频

该模块进一步对低分辨率视频的要津帧进行优化和超分辨率处理,以生成高分辨率的视频。

浅易来说,就像摄影机的好意思颜功能,会阐发图像执行自动生成更丰富的像素级细节,增强全体传神度与纹理细节。

这亦然比其他文生视频模子更高清的进击原因之一。

视频帧插值

该模块不错在生成的视频要津帧之间插入特殊的帧,加多视频的平滑性、动态感以及连贯性。

主要通过分析相邻要津帧之间的通顺信息,以及参考图像和文本描述,插入中间帧,使视频的通顺愈加聚积和当然。

艳母下载

测试数据

为了评估 MagicVideo-V2的性能,征询东说念主员使用了东说念主类评估和当今起先进的 T2V 系统两种评估口头。

阔别由61位评估者构成的小组对 MagicVideo-V2 和另一种 T2V 口头进行了 500 次并列相比。

在每一轮相比中,每位投票者皆会看到一双立时的视频,包括基于商酌文本辅导的一个咱们的视频和一个竞争敌手的视频。他们会看到三个评估选项--"好"、"同样 "或 "坏"--阔别暗意偏好 MagicVideo-V2、无偏好或偏好竞争的 T2V 口头。

投票者需要阐发他们对三个纪律的总体偏好进行投票:1) 哪种视频具有更高的帧质地和全体视觉勾引力。2) 哪种视频的时期一致性更高,通顺鸿沟和通顺连贯性性更好。

3) 哪个视频的结构诞妄或不良情况更少。测试甘休标明,MagicVideo-V2 显著更受评估者怜爱。

本文素材开始MagicVideo-V2论文狠撸撸,如有侵权请关连删除