更新时间:2025-09-11 17:20:56 编辑:丁丁小编
来源:点击查看
简介
在 AI 生图领域一直存在一个难题,就是风格参考和主体保持的一致性。你很难既要《向日葵》的油画风格,又要保持主体人物不发生变形。但字节跳动最近开源了全新的USO模型,实现了风格和主体的完美融合。
该模型来自字节跳动的智能创作实验室(UXO Team),为了实现风格参考和主体保持这两种不同需求的融合统一,他们选择的方式是通过大量数据的训练,让模型不断学习进步。
据了解,他们团队建立了一个庞大的数据集,其中包含了大约20万组“三元组”图像。每一组都包含三张图片:一张提供艺术风格的风格参考图(比如一幅浓墨重彩的油画),一张明确描绘内容的内容参考图(比如一张你朋友的清晰照片),以及一张最终的风格化目标图(即用那幅油画的风格来绘制你朋友的肖像)。
有了数据 ,接下来还得有合理的学习方法。字节跳动设计了一套两阶段训练法,将图像生成分成两步走。
第一步是风格学习。团队为其配备了业界先进的图像编码器,使其能够洞察和理解那些隐藏在像素之下的深层次艺术特征,而不仅仅是模仿表面的颜色。
第二步是加入主体内容并与风格对齐。在这一步,USO会学习如何在不丢失内容核心特征(比如人物的面部轮廓、标志性发型)的前提下,将第一阶段学到的风格“注入”进去。这种“先分后合”的训练策略,确保了风格和内容在模型的内部表示中是解耦的,互不干扰,最终在生成图像时才能实现天衣无缝的融合。
为了让模型的表现更上一层楼,字节的工程师们还引入了风格学习奖励机制。通过强化学习的方式,如果模型生成的图像在保持主题不变的同时,能更逼真地模仿参考风格,就会获得更高的奖励分。这种激励机制,极大地激发了模型追求极致风格表现的潜力。
此外,为了客观、公正地检验USO的真实能力,字节跳动还推出了业界首个能够同时评估风格相似度和主题保真度的基准测试平台USO-Bench。
过去,评测一个模型要么看它风格学得像不像,要么看它主题保留得好不好,缺乏一个统一的考场。USO-Bench的出现,终于让所有模型站在了同一条起跑线上,接受最全面的考验。毫无意外,在这场严格的大考中,USO凭借其创新架构和训练方法,在各个维度上都取得了显著优势,超越了目前所有主流的开源模型。
USO的技术突破,其意义远不止于为数字艺术爱好者提供一个更酷的玩具。它为商业设计、品牌营销等领域带来了全新的想象空间。
试想一下,一个品牌可以利用USO,快速生成一系列风格统一但内容各异的营销海报,无论是用于社交媒体的赛博朋克风,还是用于线下活动的清新水彩风,都能保持品牌核心元素的清晰可辨。这不仅极大地提升了设计效率,也为品牌的视觉传达提供了前所未有的灵活性。
更重要的是,字节跳动展现了其开放的姿态,已将USO模型全面开源。这意味着,全球的开发者、创作者和研究人员都可以自由地访问和使用这项技术,共同探索其在更多未知领域的应用潜力。从个人头像的创意定制,到游戏、影视概念图的快速生成,USO正像一颗投入湖面的石子,必将激起层层创意的涟漪。