开云「中国」Kaiyun·官方网站-登录入口-欧洲杯体育其他比特标签仍能提供踏实监督-开云「中国」Kaiyun·官方网站-登录入口

欧洲杯体育其他比特标签仍能提供踏实监督-开云「中国」Kaiyun·官方网站-登录入口

发布日期:2025-07-05 09:02  点击次数:58

欧洲杯体育其他比特标签仍能提供踏实监督-开云「中国」Kaiyun·官方网站-登录入口

自追思文生图欧洲杯体育,迎来新王者——

新开源模子 Infinity,字节营业化时代团队出品,卓绝 Diffusion Model。

值得一提的是,这其实是从前段时期斩获NeurIPS 最好论文VAR繁衍而来的文生图版块。

在预计下一级分辨率的基础上,Infinity 用愈加细粒度的 bitwise tokenizer 建模图像空间。同期他们将词表扩展到无限大,增大了 Image tokenizer 的暗意空间,大大提高了自追思文生图的上限。他们还将模子大小扩展到 20B。

限制,不仅在图像生成质料上径直打败了 Stabel Diffusion3,在推理速率上,它十足承袭了 VAR 的速率上风,2B 模子上比同尺寸 SD3 快了 3 倍,比 Flux dev 快 14 倍,8B 模子上比同尺寸的 SD3.5 快了 7 倍。

当今模子和代码齐已开源,也提供了体验网站。

来望望具体细节。

自追思文生图新王者

在昔日自追思模子和扩散模子的对比中,自追思模子广受诟病的问题是生成图像的画质不高,枯竭高频细节。

在这一布景下,Infinity 生成的图像细节很是丰富,还大要生成各式长宽比图像,解掉了环球昔日一直疑虑的 VAR 不撑抓动态分辨率的问题。

具体性能上头,当作纯正的翻脸自追思文生图模子,Infinity 在一众自追思才智中一鸣惊东谈主,远远向上了 HART、LlamaGen、Emu3 等才智。

与此同期,Infinity 也向上了 SDXL,Stable diffusion3 等 Diffusion 道路的 SOTA 才智。

东谈主类评测上,用户从画面举座、指示遵从、好意思感三个方面关于 Infinity 生成图像和 HART、PixArt-Sigma、SD-XL、SD3-Meidum 生成图像进行了双盲对比。

其中 HART 是一个相似基于 VAR 架构,交融了 diffusion 和自追思的才智。PixArt-Sigma、SD-XL、SD3-Meidum 是 SOTA 的扩散模子。

Infinity 以接近 90% 的 beat rate 打败了 HART 模子。清楚了 Infinity 在自追思模子中的强势地位。

此外,Inifnity 以 75%、80%、65% 的 beat rate 打败了 SOTA 的扩散模子如 PixArt-Sigma、SD-XL、SD3-Meidum 等,讲授了 Infinity 大要向上同尺寸的扩散模子。

那么,这背后具体是如何结束的?

Bitwise Token 自追思建模擢升了模子的高频暗意

大路至简,Infinity 的中枢立异,即是提倡了一个 Bitwise Token 的自追思框架——

废弃原有的" Index-wise Token ",用 +1 或 -1 组成的细粒度的" Bitwise Token "预计下一级分辨率。

在这个框架下,Infinity发达出很强的 scaling 特质,通过遏抑地scaling视觉编码器(Visual Tokenizer)和 transformer,赢得更好的发达。

在 Bitwise Token 自追思框架中,要道时代是一个多规范的比特粒度视觉编码器(Visual Tokenizer)。

它将 H × W × 3 大小的图像编码、量化为多规范的特征:1 × 1 × d,2 × 2 × d,…,h × w × d。其中 d 是视觉编码器的维度,每一维是 +1 或 -1。词表的大小是 2d。昔日的才智中,会赓续将 d 维的特征组合成一个 Index-wise Token(索引的鸿沟是 0~2d-1,用这个 Index-wise Token 当作标签进行多分类预计,整个类别是词表大小,即 2d。

Index-wise Token 存在恍惚监督的问题。如下图所示,当量化前的赓续特征发生微细扰动后(0.01 酿成 -0.1),Index-wise Token 的标签会发生剧烈变化(9 酿成 1),使得模子优化费事。

而 Bitwise Token 仅有一个比特标签发生翻转,其他比特标签仍能提供踏实监督。比拟于 Index-wise Token,Bitwise Token 更容易优化。

商议东谈主员在疏浚的推行开垦下对比了 Index-wise Token 和 Bitwise Token。

限制清楚,预计 Bitwise Token 大要让模子学到更细粒度的高频信号,生成图像的细节愈加丰富。

无限大词表扩展了 Tokenizer 暗意空间

从信息论的角度来看,扩散模子领受的赓续 Visual Tokenizer 暗意空间无限大,而自追思模子领受的翻脸 Visual Tokenizer 暗意空间有限。

这就导致了自追思领受的 Tokenizer 关于图像的压缩流程更高,关于高频细节的归附才智差。为了擢升自追思文生图的上限,商议东谈主员尝试扩大词表以擢升 Visual Tokenizer 的着力。

然则基于 Index-wise Token 的自追思框架很是不合适扩大词表。基于 Index-wise Token 的自追思模子预计 Token 的方式如下图左边所示,模子参数目和词表大小正关联。

当 d=32 的时候,词表大小为 232,预计 Index-wise Token 的 transformer 分类器需要有 2048 × 232=8.8 × 1012=8.8T 的参数目!

光一个分类器的参数目就达到了 50 个 GPT3 的参数目,这种情况下膨胀词表到无限大昭着是不行能的。

商议东谈主员的处治才智浮浅霸道,如上图右边所示,丢掉索引,径直预计比特!有了 Bitwise Token 自追思建模后,商议东谈主员领受 d 个 +1 或 -1 的二分类器,并行地预计下一级分辨率 +1 或 -1 的比特标签。作念出这样的转换后,参数目一下从 8.8T 降到了 0.13M。是以说,领受 Bitwise Token 建模自追思后,词表不错无限大了。

有了无限大词表,翻脸化的 Visual Tokenizer 逾期于赓续的问题似乎莫得这样严重了:

如上表所示,当词表大小放大到后,翻脸的视觉编码器在 ImageNet 上重建的 FID 的确向上了 Stable Diffusion 提倡的赓续的 VAE。

从可视化着力来看,无限大词表(Vd=232 ) ,比拟于小词表,关于高频细节(如上图中的东谈主物眼睛、手指)重建着力有质的擢升

Model Scaling 稳步擢升着力

处治了制约生生着力天花板的视觉编码器的问题后,商议东谈主员驱动了缩放词表和缩放模子的一系列推行。

商议发现,关于 125M 的小模子,使用 Vd=216 的小词表,比拟于 Vd=232 的大词表,拘谨的更快更好。

然则跟着模子的增大,大词表的上风迟缓体现出来。当模子增大到 2B 而况检察迭代向上 50K 以后,大词表取得了更好的着力。最终 Infinity 选拔 Vd=232 的大词表,商酌到 232 仍是向上了 int32 的数值鸿沟,不错觉得是无限大的数,这亦然 Infinity 的定名由来。

总结来看,(无限)大词表加大模子,加上充分的检察后,着力要显然好于小词表加大模子。

除了 scaling 词表除外,商议东谈主员还作念了对 Infinity 模子大小的 scaling 推行。

他们在十足疏浚的推行设定下比较了 125M、361M、940M、2.2B、4.7B 五个不同尺寸大小的模子。

不错看到,跟着模子的增大和检察资源的加多,考证集失掉稳步下落,考证集准确率踏实擢升。另外,商议东谈主员发现考证集 Loss 和各项测试筹算存在很强的线性干系,线性关料到数高达 0.98。

下图每个九宫格对应归拢个提醒词在不同模子大小、不同检察步数的生成图像。

从上往下永别是:迟缓增大模子限度,对应 125M、1B、5B 模子生成的图像。

从左往右永别是模子检察的步数迟缓增多青年景的图像。

咱们能显然看出:Infinity 有着精良无比的 scaling 特质,更大的模子、更多的检察,大要生谚语义结构、高频细节更好的图像。

另外 Infinity 还提倡了比特自我修订时代,让视觉自追思文生图模子具有了自我修订的才智,缓解了自追思推理时的累计缺欠问题。

Infinity 还大要生成各式长宽比图像,处治了 VAR 不撑抓动态分辨率的问题。

下图列出了 Infinity 和其他文生图模子对比的例子。

不错看到,Infinity 在指示遵从,文本渲染、画面好意思感等方面齐具有更好的发达。

除了着力除外,Infinity 十足承袭了 VAR 预计下一级分辨率的速率上风,比拟于扩散模子在推理速率上具有权贵的上风。

2B 模子生成 1024x1024 的图像用时仅为 0.8s,比拟于同尺寸的 SD3-Medium 擢升了 3 倍,比拟于 12B 的 Flux Dev 擢升了 14 倍。8B 模子比同尺寸的 SD3.5 快了 7 倍。20B 模子生成 1024x1024 的图像用时 3s,比 12B 的 Flux Dev 照旧要快快要 4 倍。

当今,在 GitHub 仓库中,Infinity 的检察和推理代码、demo、模子权重均已上线。

Infinity 2B 和 20B 的模子齐仍是洞开了网站体验,感酷好的同学不错试一试着力。

开源地址:  https://github.com/FoundationVision/Infinity

技俩页面:  https://foundationvision.github.io/infinity.project/

体验网站:  https://opensource.bytedance.com/gmpt/t2i/invite欧洲杯体育



相关资讯
热点资讯
  • 友情链接:

Powered by 开云「中国」Kaiyun·官方网站-登录入口 @2013-2022 RSS地图 HTML地图