热门文章
- NEOM旗下数字科技公司推出XVRS – 一...
- OpenXR一统江湖,终结VR/AR标准之争,...
- Meta开源对标神经网络GPT-3的大规模...
- 深入浅出,解读元宇宙应用与实践
- 元宇宙只是社会的衍生而不是全部
- 老牌黑客:在元宇宙实现人生巅峰的关...
- 元宇宙“由虚向实”背后:生成式AI技术...
- 英伟达发布“元宇宙”创作工...
- Epic发布虚幻引擎5,或打开游戏的元宇...
- 元宇宙的建设需要哪些硬件?
- 通往工业元宇宙的数字孪生,为何离不...
- 元宇宙的终极形式,竟然是脑机接口?
- 高通骁龙XR2平台,360度全景的视野,让...
- 香港大学建立全球首个元宇宙双子校园
- 立体逼真的城市细节,室外甚至室内的3...
- 解密通往元宇宙的三大入口,VR先...
- 2024年面世!谷歌将发布首款AR头显,携...
- 全球首款AR隐形眼镜问世:是元宇宙窗...
- 元宇宙、Web3.0入侵生活 科技人才投身...
- CES 2022:三星布置“元宇宙”概念展台
一文读懂AIGC,万亿新赛道为何今年获得爆发?
AIGC——利用人工智能技术来生成内容,它被认为是继PGC、UGC之后的新型内容创作方式。2022年AIGC发展速度惊人,迭代速度更是呈现指数级爆发,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,成为AIGC发展的“加速度”。腾讯将持续关注AIGC赛道,从技术突破、商业模式、头部公司等方向,推出“AIGC未来指北”系列内容,本文为系列第一篇。
以下为正文:
2022年8月,在美国科罗拉多州举办的新兴数字艺术家竞赛中,参赛者提交AIGC(AI-Generated Content,以下简称“AIGC“)绘画作品《太空歌剧院》,参赛者没有绘画基础但是却获得了此次比赛“数字艺术/数字修饰照片”类别一等奖,引发多方争议:一方面,批判者认为AI在“学习”了大量前人的作品之后,其创作没有任何情绪和灵魂,难以和人类的艺术创作相提并论。另一方面,支持者认为创作者在一遍遍修改文本内容后,才让AI创作出满意的作画,而且作品有很强的观赏性,AI的创作有其独特价值。
一、 AIGC构建发展“加速度”
AIGC是利用人工智能技术来生成内容。2021年之前,AIGC生成的主要还是文字,而新一代模型可以处理的格式内容包括:文字、语音、代码、图像、视频、机器人动作等等。AIGC被认为是继专业生产内容(PGC,professional-generated content)、用户生产内容(UGC,User-generated content)之后的新型内容创作方式,可以在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势。2022年AIGC发展速度惊人,年初还处于技艺生疏阶段,几个月之后就达到专业级别,足以以假乱真。这让花费毕生所学进行创作的从业人员倍感焦虑和紧张。同时,AIGC的迭代速度呈现指数级爆发,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,成为AIGC发展的“加速度”。
(一)深度学习模型是AIGC加速普及的基础
视觉信息一直在网络中有较强的传播力且容易被大众感知,具有跨平台、跨领域、跨人群的优势,天然容易被人记忆和理解。同时视觉信息应用场景广泛,因此生成高质量的图像成为当前AI领域的一个现象级功能。
2021年,OpenAI团队将跨模态深度学习模型CLIP(Contrastive Language-Image Pre-Training,以下简称“CLIP”)进行开源。CLIP模型能够将文字和图像进行关联,比如将文字“狗”和狗的图像进行关联,并且关联的特征非常丰富。因此,CLIP模型具备两个优势:一方面同时进行自然语言理解和计算机视觉分析,实现图像和文本匹配。另一方面为了有足够多标记好的“文本-图像”进行训练,CLIP模型广泛利用互联网上的图片,这些图片一般都带有各种文本描述,成为CLIP天然的训练样本。据统计,CLIP模型搜集了网络上超过40亿个“文本-图像”训练数据,这为后续AIGC尤其是输入文本生成图像/视频应用的落地奠定了基础。
“对抗生成网络”GAN(Generative Adverserial Network, 以下简称“GAN”)虽然也是很多AIGC的基础框架,但是GAN有三个不足:一是对输出结果的控制力较弱,容易产生随机图像;二是生成的图像分别率较低;三是由于GAN需要用判别器来判断生产的图像是否与其他图像属于同一类别,这就导致生成的图像是对现有作品的模仿,而非创新。因此依托GAN模型难以创作出新图像,也不能通过文字提示生成新图像。
随后出现的Diffusion扩散化模型,则真正让文本生成图像的AIGC应用为大众所熟知,也是2022年下半年Stable Diffusion应用的重要推手。Diffusion模型有两个特点:一方面,给图像增加高斯噪声,通过破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像。经过训练,该模型可以从随机输入中合成新的数据。另一方面,Stable Diffusion把模型的计算空间从像素空间经过数学变换,降维到一个可能性空间(Latent Space)的低维空间里,这一转化大幅降低了计算量和计算时间,使得模型训练效率大大提高。这算法模式的创新直接推动了AIGC技术的突破性进展。
总的来看,AIGC在2022年实现破圈,主要是在深度学习模型方面有了长足进步:首先CLIP模型基于海量互联网图片进行训练,推动AI绘画模型进行组合创新;其次Diffusion扩散化模型实现算法创新;最后使用潜空间降维的方法来降低Diffusion模型在内存和时间消耗较大的问题。因此,AIGC绘画之所以能够帮助大众画出各种天马行空的画作,背后离不开大量深度学习模型的不断完善。
(二) “开源模式”成为AIGC发展催化剂
在算法模型方面,AIGC的发展离不开开源模式的推动。以深度学习模型CLIP为例,开源模式加速CLIP模型的广泛应用,使之成为当前最为先进的图像分类人工智能,并让更多机器学习从业人员将CLIP模型嫁接到其他AI应用。同时,当前AIGC绘画最热门的应用Stable Diffusion已经正式开源(包括模型权重和代码),这意味着任何用户都可以以此建立针对特定文本到图像的创作任务应。Stable Diffusion的开源直接引发2022年下半年AIGC引发广泛关注,短短几个月时间内出现大量二次开发,从模型优化到应用拓展,大幅降低用户使用AIGC进行创作的门槛,提升创作效率,并长期长期霸占GitHub热榜第一名。
在训练数据集方面,机器学习离不开大量数据学习,LAION作为全球非盈利机器学习研究机构,在2022年3月开放了当前规模最大的开源跨模态数据库LAION-5B,使得近60亿个“文本-图像”对可以用来训练,从而进一步加快AI图像生成模型的成熟,帮助研究人员加快推动从文字到图像的生成模型。正是CLIP和LAION的开源模式构建起当前AI图像生成应用的核心。未来,随着模型稳定,开源将成为AIGC成熟的催化剂,源模式有望让相关模型成为海量应用、网络和服务的基础,应用层面的创造力有望迎来拐点。
二、 AIGC为创作领域带来的效率与模式的创新
(一) AIGC工具属性有助于效率提升
在捕捉灵感方面,AIGC可以帮助有经验的创作者捕捉灵感,创新互动形式。例如在游戏行业,制作人灵感往往难以准确表达,与美术工作人员经常由于沟通产生理解误差。通过AIGC系统可以在设计初期,生成大量草图,在此基础上制作人与美术人员可以更好的理解并确认彼此的需求。同时,创作灵感难以琢磨,可以提前通过AIGC来寻找“感觉”,进一步降低美术创作者大量前期工作和项目成本。例如,制作人先构建完整的背景故事后,由AIGC生成系列画作,之后再由专业的美术人员进行筛选、处理、整合,并将整个故事和画面进一步完善提升。
在提升效率方面,AIGC的出现将会让创作者拥有一个更加高效的智能创作工具,在内容创作环节进行优化,而非成为竞争对手。例如在极短的项目筹备时间内,AIGC可以大幅提升效率,验证了AI投入到工业化使用的可行性。尤其是对于艺术、影视、广告、游戏、编程等创意行业的从业者来说,可以辅助从业者进行日常工作,并有望创造出更多惊艳的作品。同时,还可以进一步降低成本和效率,为规模化生产构建市场增量。
(二) AIGC构建创意与实现的分离
在创意构思方面,AIGC构建了新的创意完善通路,传统的创作过程中消化、理解以及重复性工作将有望交由AIGC来完成,最终创意过程将变为“创意-AI-创意”的模式。
在创意实现方面,创作者和AIGC的关系类似于摄影师和照相机。摄影师构建拍摄思路并进行规划,对相机进行参数配置,但是不用了解相机的工作机制,一键生成高质量的内容。同样的,创作者构思并进行规划,对AI模型进行参数配置,不需要了解模型的原理,直接点击输出内容即可。创意和实现呈现出分离状态,实现过程变为一种可重复劳动,可以由AIGC来完成,并逐步将成本推向趋近于0。
(三) AIGC给创作者获得更多收益带来思路创新
创作者的成果是AIGC学习的对象,但创作者的创意才是关键,创意本身比AIGC生成的绘画更有价值,因此如何将创作者的“创意”进行量化,甚至定价,将有助于打造AIGC的商业模式。这其中“注意力机制”将成为AIGC潜在的量化载体。例如国内有机构专家提出,可以通过计算输入文本中关键词影响的绘画面积和强度,我们就可以量化各个关键词的贡献度。之后根据一次生成费用与艺术家贡献比例,就可以得到创作者生成的价值。最后在与平台按比例分成,就是创作者理论上因贡献创意产生的收益。
例如某AIGC平台一周内生成数十万张作品,涉及这位创作者关键词的作品有30000张,平均每张贡献度为0.3,每张AIGC绘画成本为0.5元,平台分成30%,那么这位创作者本周在该平台的收益为:30000*0.3*0.5*(1-30%)=3150元的收益,未来参与建立AI数据集将有望成为艺术家的新增收益。
(四) 从“大模型”到“大应用”,探索可行商业模式
基于深度学习算法数据越多,模型鲁棒性越强的特点,当前的大模型规模只增不减,比拼规模已经成为标配。例如,Open AI推出的GPT-3参数已经超过1750亿个。但“数据投喂”并非一种技术路径上的创新,更多的是在工程领域的微调。需要指出的是,模型规模越大,其实越难以在现实场景中落地部署。同时“海量数据”并不等同于“海量高质量数据”,有可能会导致反向效果产生。
AIGC的发展离不开预训练大模型的不断精进。大模型虽然在很多领域都表现出良好的使用效果,但是这些效果作为展示甚至噱头之后,很难形成良性的商业价值,与大模型的训练成本、基础设施投入更是相差甚远。如何推动“大模型”向“大应用”来转变,正在成为关键的考验。AIGC的破圈以及引发的关注,可以看到大模型商业化的潜力正在清晰化:一方面大模型企业可以根据C端用户实际“按需提供服务”和商业转化;另一方面带动对云计算、云存储的使用量上升。将AIGC从“尝鲜试试看”变成大众频繁使用的需求,再到与具体行业和领域深度结合,依托我国丰富的产业需求和应用场景,有望为大模型商业化和长期价值探索一条新路径。
三、 AIGC发展面临的挑战
Gartner预计,到2025年,生成式人工智能将占所有生成数据的10%。根据《Generative AI :A Creative New World》的分析,AIGC有潜力产生数万亿美元的经济价值。AIGC在引发全球关注的同时,知识产权、技术伦理将面临诸多挑战和风险。同时AIGC距离通用人工智能还有较大的差距。
(一) AIGC引发“创造力”归属争论
传统印象中,人工智能在创造性工作领域与人类还无法进行竞争,主要擅长的是计算、挖掘,聚焦在海量数据分析领域。人类更擅长的是创新,例如诗词、设计、编程等需要创造性的事物上。与AI下棋相比,AI进行绘画创作给大众带来的冲击更为明显:棋类游戏具有明确的规则和定义,不需要AI具备创造性,但AIGC尤其是输入文字就能进行绘画、视频,让没有相关专业能力的人也可以制作出以假乱真的专业级别作品,则引发人们对自身引以为傲的“创造力”担忧。AI不会替代创作者,但是可能会替代不会AI工具的创作者。
(二) 知识产权引发创作者担忧
由于算法模型的进一步完善和成本快速下降,AIGC大规模商业化成为现实,过去遥不可及的专业能力已经具备从实验室飞入寻常百姓家的可能。与此同时,AIGC的飞速发展和商业化应用,除了对创作者造成冲击外,也对大量依靠版权为主要营收的企业带来冲击。具体来看:
一方面,AIGC难以被称为“作者”。根据我国《著作权法》的规定,作者只能是自然人、法人或非法人组织,很显然AIGC不是被法律所认可的权利主体,因此不能成为著作权的主体。但AIGC应用对生成的图片版权问题持有不同观点,图片属于平台、完全开源还是生成者,目前尚未形成统一意见。
另一方面,AIGC产生的“作品”尚存争议。根据我国《著作权法》和《著作权法实施条例》的规定,作品是指文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果。AIGC的作品具有较强的随机性和算法主导性,能够准确证明AIGC作品侵权的可能性较低。同时,AIGC是否具有独创性目前难以一概而论,个案差异较大。
由于创作者每次新的创作都在无形中对AIGC进行免费培训,这让众多版权机构产生巨大担忧。目前已经有大量艺术家和创作者宣布禁止AI学习自己的作品,从而保护自身知识产权。Getty Images、Newgrounds等网站也纷纷宣布禁止上传和销售AIGC作品。
(三) 距离通用人工智能还有较大差距
当前热门的AIGC系统虽然能够快速生成图像,但是这些系统是否能够真正理解绘画的含义,从而能够根据这些含义进行推力并决策,仍是未知数。
一方面,AIGC系统对输入的文本和产生的图像不能完全关联起来。例如,用户对AIGC系统进行测试,输入“骑着马的宇航员”和“骑着宇航员的马”内容时,相关AIGC系统难以准确生成对应的图像。因此,当前的AIGC系统还并没有深刻理解输入文本和输出图像之间的关系。另一方面,AIGC系统难以了解生成图像背后的世界。了解图像背后的世界,是判断AIGC是否具备通用人工智能的关键。目前来看,AIGC系统还难以达到相关的要求。比如,在Stable Diffusion 输入“画一个人,并把拿东西的部分变成紫色”,在接下来的九次测试过程中,只有一次成功完成,但准确性还不高。显然,Stable Diffusion 并不理解人的双手是什么。
知名AI专家发出的调查也印证了同样的观点,有86.1%的人认为当前的AIGC系统对世界理解的并不多。持相同观点的人还包括Stable Diffusion的首席执行官。
(四) 创作伦理问题尚未有效解决
部分开源的AIGC项目,对生成的图像监管程度较低。一方面,部分数据集系统利用私人用户照片进行AI训练,侵权人像图片进行训练的现象屡禁不止。这些数据集正式AIGC等图片生成模型的训练集之一。例如,部分数据集在网络上抓取了大量病人就医照片进行训练,且没有做任何打码模糊处理,对用户隐私保护堪忧。另一方面,一些用户利用AIGC生成虚假名人照片等违禁图片,甚至会制作出暴力和性有关的画作,LAION-5B数据库包含色情、种族、恶意等内容,目前海外已经出现基于Stable Diffusion模型的色情图片生成网站。
由于AI本身还不具备价值判断能力,为此一些平台已经开始进行伦理方面的限制和干预。例如DALL·E2已经开始加强干预,减少性别偏见的产生、防止训练模型生成逼真的个人面孔等。但相关法律法规的空白和AIGC应用研发者本身的不重视将引发对AI创作伦理的担忧。
元宇宙神评
相关主题
-
《黑镜》里“自制”AI男友成真,GPT让普通人轻松构建元宇宙
-
《中国人工智能产业研究报告(Ⅴ):道阻且长,行而不辍》(附PDF下载)
内容概要:AI成为企业数字化、智能化改革的重要抓手,也是各行业领军企业打造营收护城河的重要方向。落地AI应用对企业业务运营的商业价值与战略意义越来越明确。
-
各大企业巨亏裁员,元宇宙会是又一个泡沫吗?
-
一文详解AIGC:推动元宇宙发展的加速器
内容概要:AIGC的出现意味着创作者将从繁冗的基础性工作中解脱出来,把更多的精力放到创意表达上,这是未来内容创作行业,甚至是人类工作方式的整体趋势。
-
从AI画画到“用声音做视频”,全球掘金AIGC
内容概要:登台的新宠儿名为“AIGC”,又称“生成式AI”(Generative AI)。这一领域正以令人侧目的速度发展,将创新和技术再度拉回到世界舞台的焦点。
-
红杉资本:生成式人工智能,一个充满创造性的新世界
-
《中国信通院-人工智能生成内容(AIGC)白皮书(2022年)》(附PDF下载)
-
5G+AI+XR,高通藏在元宇宙里的三驾马车
内容概要:作为细分赛道的龙头企业,高通比多数厂商们更早地感受到行业变化,早早在元宇宙做好技术储备,其元宇宙布局已初具雏形。相比其他底层技术厂商,高通凭借着其独一无二专为XR设备设计的芯片平台领先一步。
-
元宇宙遥不可及?专家:AI是元宇宙重要支撑,已有众多结合及落地案例
-
Meta持续动荡:AI部门拆散重组,杨立昆投身元宇宙部门
-
平台押注资本追捧 视听产业成元宇宙场景应用第一战场
内容概要:报告显示,元宇宙是一个需要长期才能实现的目标,在实现元宇宙的旅程之中会不断地出现像AIGC这样的爆点。有了AIGC支持后,人类至少一只脚已经开始在往真正的元宇宙时代迈进。
-
GPT-4技术报告(附中、英文PDF下载,含GPT-4 System Card_中文)
内容概要:这份技术报告介绍了 GPT-4,一种能处理图像和文本输入并生成文本输出的大型多模态模型。这类模型非常重要,因为它们有潜力被广泛应用于对话系统、文本摘要和机器翻译等领域。
-
英伟达元宇宙获得新硬件支持
内容概要:英伟达负责专业可视化的副总裁Bob Pette在本周举行的年度GTC(GPU技术大会)前的新闻发布会上表示,这家芯片制造商推出了一款名为OVX 3的新服务器,旨在创建和操作元宇宙。
-
放弃元宇宙,转型AI?Meta:不,两个我都要
-
加速元宇宙创新生态,阿里云和伙伴一起探寻奇点
-
《哈工大-ChatGPT 调研报告 (仅供内部参考)》(附PDF下载)
内容概要:哈工大自然语言处理研究所组织多位老师和同学撰写了本调研报告,从 技术原理、应用场景、未来发展等方面对 ChatGPT 进行了尽量详尽的介绍 及总结。 本报告仅供内部参考。
-
扎克伯格静静地埋葬了他的元宇宙?
内容概要:从现在开始,不要再和扎克伯格谈论元宇宙了。又有一件事情可以持续足够长的热情来做(人工智能),让他找到了新的追求。
-
中国 AIGC 与元宇宙创新创业创作大赛即将启动
内容概要:在实现元宇宙的过程中,会不断出现像AIGC这样的爆点,而我们将通过大赛的方式去追踪,用大赛去覆盖元宇宙成长过程中的每一个关键技术突破。
-
Unity中国亮相2023全球人工智能开发者先锋大会
-
ChatGPT火了,元宇宙凉了?