加入收藏 | 设为首页 | 会员中心 | 我要投稿 汽车网 (https://www.0577qiche.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

解决AI绘画模型的世界观偏见

发布时间:2023-09-14 12:32:17 所属栏目:动态 来源:
导读:中文AI绘画模型的研发从易到难当前有如下的几种方式:

英文模型 + 翻译。这种方式简单粗暴,除了翻译外几无成本,可以说是最低成本的“中文化”选择,并在大量AI绘画产品中得到了广泛采用。但这种方式只
中文AI绘画模型的研发从易到难当前有如下的几种方式:

英文模型 + 翻译。这种方式简单粗暴,除了翻译外几无成本,可以说是最低成本的“中文化”选择,并在大量AI绘画产品中得到了广泛采用。但这种方式只能解决表面上的中文输入问题,并不能解决英文模型因为模型偏见而无法准确生成符合中文世界认知形象的问题。

英文模型 + 隐式翻译。与显式的调用翻译服务的方式不同,这种方式是将英文模型的text encoder替换为中文text encoder,并利用翻译模型训练中使用的中英文平行语料对中文text encoder进行训练,使其输出的embedding空间与原来的英文text encoder对齐。本质上属于一种隐式翻译。

英文模型 + 隐式翻译 + 微调。在上面方法的基础上,将对齐了text encoder的模型使用中文图文数据进行进一步的整体微调以提升AI绘画模型对中文形象的输出能力。这种方式可以在一定程度上缓解英文基底模型带来的模型偏见问题,但因为其隐式翻译的本质,对多义词的理解和绘制能力总有漏洞。这方面的代表性工作有IDEA太乙[9]、天工[10]等。

英文模型的结构,使用中文数据从头训练。这是一种非常彻底的中文化方案,因为模型使用中文数据完全从头训练,因此可以保证最终训练得到的模型具有完整的原生中文能力:理解中文输入,并能给出符合中文世界认知的图像输出结果。这方面的代表性工作有阿里达摩院[12]和华为的悟空画画[13]等。这种方式的优点是具备最优的中文能力,完全没有前述几种路线的英文模型偏见问题,但这种方式在实际落地应用中也有着非常大的不足:除了训练成本高外,最致命的问题是无法复用英文AI绘画社区的已有成果,如各种不同风格的微调模型、LoRA、ControlNet等等。

在当前的中文AI绘画模型路线中,中文从头训练能够为中文用户提供最为完整的原生中文能力,但代价是中文模型与英文SD模型不兼容,因此在英文SD模型上衍生出的大量社区资源如微调模型、LoRA、Dreambooth、ControlNet等无法直接使用,理论上这些模型都需要针对中文模型重新进行适配训练。这致使中国模型的演化受到限制且难以产生共同体感,也因此跟英语社群的开发进度拉开距离的可能性更高了。

能否在原生中文能力之上,进一步打通中文原生模型与英文SD社区的兼容性问题,就成为我们所要攻克的一个关键难题。经过近半年的技术攻关,我们提出了一种新的扩散模型结构,称为“Bridge Diffusion Model”(BDM),以解决上述的困境。BDM不仅可以精确的生成中文语义图片,解决了英文模型的世界偏见问题,同时又保持了和英文社区之间的互通性,无缝兼容各种英文SD社区插件,这也是命名中“Bridge”的由来。BDM通过主干-旁支的架构结合原始英文模型,同时使用纯中文数据训练,打造中文原生AI绘画模型。

 

(编辑:汽车网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章