如何实现AIGC的价值
发布时间:2023-04-26 08:43:36 所属栏目:动态 来源:
导读:AIGC 被认为是继专业生产内容(PGC)、用户生产内容(UGC)之后的新型内容创作方式,人们期待 AI 能够掀起新一轮内容生产变革。当前,大部分的 AI绘画工具,都是面向个人用户(to C)的应用程序,而这些工具生成的图像确
AIGC 被认为是继专业生产内容(PGC)、用户生产内容(UGC)之后的新型内容创作方式,人们期待 AI 能够掀起新一轮内容生产变革。当前,大部分的 AI绘画工具,都是面向个人用户(to C)的应用程序,而这些工具生成的图像确实有趣。 但想让 AIGC 赋能各行各业,提升生产力,做出面向 B客户的高效、专业的应用才是关键。 最近,长期深耕 to B 业务的商汤科技宣布推出妙画 SenseMirage,为 AI 作画打开了商业应用的新格局。 要想让模型足够好、AI 作画足够逼真,就要具备三个核心元素,包括模型架构、优化方法和底层基建。 首先,模型本身的结构设计要足够高效。一般来讲,神经网络变得更大,模型学习能力就会更强。但如何保证在同等超大参数量下,要想在模型性能方面有显著优势,还需要加大模型神经网络结构设计的力度。 因此,商汤自研的模型是基于研究人员和 AI 一起设计出来的超大神经网络结构。在这个结构下,相同的数据、相同的参数,商汤自研的模型在性能上就有显著的优势。训练后的模型,相对于仅仅是提高一些深度和宽度量级的模型,在生成效果上会有很大的提升。 第二,在这套模型架构设计 pipeline 里,研究人员会手工设计一些优化方法。 传统的神经网络训练都是用 SGD、Adam 优化器等等。而在过去的几年里,商汤在超大神经网络的梯度下降优化方法上做了非常多的研究。 特别大的模型在优化上有一个非常严重的问题,就是模型训练过程的收敛性很难保证。这可能是因为优化器不够好,也可能是因为数据里有噪声,导致模型在极个别错误的样本下产生极大的损失函数值。此外,对于基于扩散模型的生成模型来说,生成的语义完备性、物体宏观结构、细节(比如手指、四肢等)、推理的加速等都有较大改进空间。商汤的研究团队基于这些问题做了大量的优化,以确保商汤自研的文生图、视觉感知等模型都能够在一个很长周期内保持训练稳定、高效。 第三,算法与底层基建要绑定配合,联合优化。当模型的体量足够大,就需要用 3D 切割的方法从神经网络深度,宽度以及数据 batch 的三个维度来切割神经网络,再分配到上千块 GPU 上,在每个 GPU 上进行局部计算,就会涉及到非常多机器学习系统的问题。比如在计算每一个分块计算的全局结果时,需要把不同的计算结果结合起来。而这又会导致一个问题——每个 GPU 上的子模型在相互通信时,带宽要求会非常大。 然而,机器学习系统中通常是一个 POD 内的 P2P 通信带宽很大,POD 之间的通信带宽很小,因此商汤的研究团队专门针对这个问题对神经网络的结构进行了特异性设计,让只能在一个 POD 内通信的子模型尽量放在一个 POD 里,而通信带宽要求相对较小的一些模块(比如不同的 experts)就放到不同的 POD 之间,这就可以让大模型与商汤的 AI 大装置进行联合优化,以获得更高的训练效率。 这是为了大幅降低 AI 作画的商用门槛。对于一些中小型企业来说,本地化部署大模型的成本是非常高的。硬件方面,训练模型需要搭建一定规模的 GPU 算力集群,还需要专业的技术团队,人力成本也是比较高的。 此外,秒画还提供了特异性推理优化服务,开源模型导入后会自动采用秒画平台底层的模型编译技术进行加速。借助这项加速技术,在本地 RTX 3070 显卡上需要 10 秒生成的图像,秒画只要 2 秒的推理时间就可以生成。 随着生成式 AI 模型迎来爆发式增长,越来越多的人开始探索 AIGC 的潜在应用场景。不同于to C 的应用软件,to B 的 AIGC 平台需要为各行业找到合适的商业模式。 在文生图领域,设计、营销、游戏动画等行业未来将成为 AI 作画的主要应用场景。作为 to B 的生图平台,秒画具备赋能这些行业的优势。 一方面,秒画为 B 端客户大幅降低了文生图模型的构建门槛和商用成本;另一方面,秒画也符合当前流行的 AI 作画的技术场景,强化了文生图模型的应用价值。 在 AI 作画赚足眼球的今天,秒画平台从赋能产品的角度出发,为 AIGC 打开商业机会提供了一个新的想法。 最后,我们想说,文生图只是 AIGC 的方向之一。随着生成式 AI 模型的迅速发展,AI 生成文本、AI 生成视频等等多个领域都在加快应用落地,AI 终将掀起内容生产的新一轮变革。 (编辑:汽车网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
推荐文章
站长推荐