XuLaLa.Tech

首页客户端下载Windows 使用V2Ray 教程SSR 教程Clash 教程

深夜,大洋彼岸,又一款人气新品SD3刚刚发布,碾压中途!

2024.06.25

哈喽大家好我是站长,咨询购买国外苹果ID资源,火箭苹果ID,可加微信: 公众号:Ai

A股又来了,先富起来! 深夜,大洋彼岸又一爆款新品发布! SD3刚刚发布,性能碾压中途!

A股又来了,先富起来! 深夜,大洋彼岸又一爆款新品发布! Stable Diffusion 3 API 的发布号称拥有碾压 Midjourney 的性能!

概念股专栏:

工具语料库:福昕软件(688095)、汉仪科技(301270)、当红科技(688095)、开普云(688228)、华阳联众(603825)、虹软科技(688088)、凡拓数码(301313)、印赛集团(300781) 、万兴科技(300624)

AI算力:星辰科技、中际旭创、信易盛、天府通信、浪潮信息、寒武纪、云天励飞、龙芯中科、优刻德、数据港、青云科技

—————————

Stable Diffusion 3 API发布,号称比Midjourney DALL·E性能更优越。 对普通用户免费!

昨晚,Stability AI 正式发布了 Stable Diffusion 3 API。 SD3技术报告发布几个月后,用户终于可以试用了。 但遗憾的是,完全开源的SD3型号还在路上,但他们承诺,对于普通用户来说,SD3型号不会收费。 现在,用户可以通过Fireworks AI访问SD3的API。 根据SD3的技术报告,SD3比DALL·E 3和Midjourney能够更好地遵循用户提示。 SD 3 的新多模态扩散变换器 (MMDiT) 架构对图像和语言表示使用单独的权重集,与之前版本的稳定扩散相比,它提高了文本理解和拼写能力。 可以看到,用户可以非常精确地控制需要出现在图片中的文字内容。 新模型生成看起来假又真实的逼真图片。

提示:拟人化乌龟坐在纽约地铁上的肖像照片。 即使是完全虚构的画面也能达到美学与细节真实性的统一。

提示:审美柔和的魔幻现实主义,一个头上戴着复古电视的男人,站在沙漠中心,老式照片。 图片调用API,网友利用SD和ChatGPT做了一个小游戏。 在他看来,SD3比DALL·E具有更好的风格一致性,并且更擅长在系统项目中生成美术素材。 网友们也分享了更多用SD3制作的作品。 可见,如果对图像内容中的文字有明确的要求,SD3是少数能够满足要求的机型之一。 机器人的双手看起来也完美无瑕。 人物面部细节非常真实。 机械式的中国龙造型也细节丰富,栩栩如生。 许多调用SD3 API的应用程序也得到了Stability AI的官方推广,并使用SD3生成的图像来宣传其API。

模型核心架构

SD3的核心技术在于StabilityAI开发的MMDiT技术。 该模型使用三种不同的文本嵌入器(两个 CLIP 模型和 T5)来编码文本表示,并使用改进的自动编码模型来编码图像标记。 该架构的核心采用了与Sora相同的DiT技术。 由于文本和图像嵌入在概念上完全不同,因此它们为这两种模式使用两组独立的权重。

如上图所示,这相当于每个模态都有两个独立的 Transformer,但是将两个模态的序列连接起来进行注意力操作,使得两种表示都可以在自己的空间中工作,同时考虑另一种表示。 在这样的特殊安排下,MMDiT的性能超过了传统UViT或DiT本身。 通过使用这种方法,信息可以在图像和文本标记之间流动,以提高生成输出中的整体理解和排版。 该架构还可以轻松扩展到视频等多种模式。 得益于 SD3 改进的提示跟随功能,模型能够创建专注于各种不同主题和质量的图像,同时保持图像本身风格的高度灵活性。

哈喽大家好我是站长,咨询购买苹果ID资源,火箭ID,可加微信: 公众号:Ai

© 2010-2022 XuLaLa 保留所有权利 本站由 WordPress 强力驱动
请求次数:69 次,加载用时:0.665 秒,内存占用:32.19 MB