《AIGC深度报告：新一轮内容生产力革命的起点-国海证券》（附PDF下载）

信息来源：未来智库发布日期：2023-03-03 主题标签：报告 AIGC AI

AIGC破圈元年

AIGC连续破圈：AI绘画/ChatGPT相继破圈

AI绘画作品获奖。2022年8月，在美国科罗拉多州举办的新兴数字艺术家竞赛中，《太空歌剧院》获得“数字艺术/数字修饰照片”类别一等奖。参赛者没有绘画基础，利用AI工具Midjourney创作。

ChatGPT于2022年11月30日推出，5天后用户破百万，两个月后月活用户突破1亿，成为史上用户增长速度最快的消费级应用程序。风投及产业资本涌入AIGC。 2021年开始，风投对AIGC的投资金额金额出现爆发式增长，2022年超20亿美元。主打AI生成文字的Jasper.ai于2022年10月完成1.25亿美元A轮融资，估值达15亿美元。AI视觉艺术创业公司Stability.ai获1.01亿美元种子轮融资，投后估值达10亿美元。据美国财经媒体Semafor报道，微软预计向ChatGPT的开发者OpenAI投资100亿美元，OpenAI投后估值将高达290亿美元。

AIGC定义：新的内容生成方式、基于人工智能的技术集合

AIGC（AI Generated Content）即利用人工智能技术自动生成内容，受制于AI技术成熟度，目前AI仍为内容制作的辅助型角色（AIUGC），待技术突破， AI可真正作为内容创作者（AIGC）。 AIGC是技术集合，基于生成对抗网络GAN、大型预训练模型等人工智能技术，通过已有数据寻找规律，并通过适当的泛化能力生成相关内容的技术集合。相关叫法：合成式媒体（Synthetic Media），即基于AI生成的文字、图像、音频等；Gartner提出的生成式AI（Generative AI)，即由人工智能自动生成新的编程、内容或商业活动，让文字、音乐、图像、视频、场景等都可由AI算法自动生成。从PGC到UGC，从UGC到AIGC。Web1.0时代“只读”模式催生出“PGC”；Web2.0时代，社交媒体兴起，人与人通过网络交互，催生出以用户生产和分享内容的“UGC”模式；Web3.0时代，内容消费需求进一步增长，个性化需求凸显，“AIGC”将成为重要的新内容生成方式。

AIGC为何爆发？数据、算法、算力共振

AIGC发展核心三要素：数据、算力、算法。算法持续迭代。2017年推出的Transformer架构的并行训练优势奠定了大模型训练的基础，GPT为代表的预训练模型，通过使用无标注数据预训练及微调，缓解了标注数据不足的问题，并不断提升参数量级及模型通用性，ChatGPT在此基础上加入了利用人类反馈强化学习的训练方法。扩散模型取代GAN成为图像生成领域的主流模型，CLIP模型推动跨模态生成技术的发展。模型商业化及开源释放创造力。GPT3的商业化及CLIP及Stable Diffusion模型的开源推动文本生成、文生图产品化浪潮。

AIGC算法发展历程：谷歌持续重注AIGC研究

2023年2月2日，谷歌研究院等提出了一种视频生成新模型—— Dreamix，受到了AI作图UniTune的启发，将文本条件视频扩散模型（video diffusion model, VDM）应用于视频编辑。核心是通过两种主要思路使文本条件VDM保持对输入视频的高保真度：（1）不使用纯噪声作为模型初始化，而是使用原始视频的降级版本，通过缩小尺寸和添加噪声仅保留低时空信息；（2）通过微调原始视频上的生成模型来进一步提升对原始视频保真度。微调确保模型了解原始视频的高分辨率属性，对输入视频的简单微调会促成相对较低的运动可编辑性，这是因为模型学会了更倾向于原始运动而不是遵循文本prompt。

AIGC市场空间：从决策走向创造

推动内容生产向高效率和更富创造力方向发展，与多产业融合。不仅是降本增效，更是个性化内容生成。AI不仅能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动，从技术层面实现以低边际成本、高效率的方式满足海量个性化需求。根据Sequoiacap，近年来AI模型在手写、语音和图像识别、阅读理解和语言理解方面的表现逐渐超过了人类的基准水平。而且AI让所有人都能够成为“艺术家”，可无时无刻生成更有创造力、更个性化的内容。通过支持AI生成式内容与其他产业的多维互动、融合渗透从而孕育新业态新模式，为各行各业创造新的商业模式，提供价值增长新动能。

商业模式：按调用量收费、SaaS订阅收费、增值服务、解决方案等

AIGC的潜在客户主要包括2B端内容生产公司和2C端用户： 2B：在PGC领域实现内容创作高效化，提高PGC活跃度和灵活性。AIGC能够克服人力不足，降低内容生产成本。客户主要为资讯媒体、音乐流媒体、游戏公司、视频平台、影视制作公司等，如协助影视公司制作电影/剧集视频片段。 2C：在UGC领域实现内容创作低门槛和较高专业度，扩充UGC人群。AIGC能够激发C端用户灵感，且不需要用户具有极强的专业知识，每个人都可以成为创作者。客户主要为画家、写手、歌手等，如协助音乐小白创作专属于个人的歌曲。国内AIGC商业模式尚未成型。以写作机器人、自动配音等场景为例，大部分产品仍处在免费试用的“流量吸引+平台改良”阶段。此外，部分公司将 AIGC用于协助自身原有商业体系，如腾讯开发的AI Bot应用于腾讯游戏中，阿里的智能语音服务主要应用于微信，字节跳动则主要基于短视频场景研究AI 赋能。

AIGC应用场景

文本生成：基于NLP技术，受益于预训练语言模型突破发展

自然语言处理技术（NLP）是文本生成的基础。NLP探索计算机和人类（自然）语言之间相互作用，研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。最早的自然语言处理研究工作是机器翻译，后逐渐向文本摘要、分类、校对、信息抽取、语音合成、语音识别等方面深入。从基于规则的经验主义到基于统计的理性主义，再到基于深度学习的方法，NLP在70年历程中逐渐发展进步。受益于预训练语言模型的突破发展， Transformer等底层架构不断精进，NLP取得跨越式提升。

文本生成：已实现大范围的商业落地

文本生成是AIGC实现商业落地最早的技术之一，技术发展显著提高了对于上下文的理解与承接能力、对常识性知识的嵌入能力、中长篇幅生成能力、生成内容的内在逻辑性等，文本生成迎来质的飞跃。现有的落地场景主要集中在应用型文本生成、创作型文本生成，重点关注闲聊型交互文本生成。

音频生成：TTS场景基本成熟，乐曲创作有发展潜力

音频生成主要应用于流行歌曲、乐曲、有声书的内容创作，以及视频、游戏、影视等领域的配乐创作，目前在众多场景已获初步发展，在部分场景已广泛应用、趋于成熟。现有的落地场景集中在TTS、语音克隆、乐曲/歌曲生成。

索尼计算机科学实验室（CSL）在2021年9月宣布发布一款AI辅助音乐制作应用程序Flow Machines Mobile（FM Mobile），已登陆苹果App Store，可以用于iPad。FM Mobile利用AI人工智能技术辅助音乐制作，能够根据创作者选择的风格提示旋律、和弦和贝斯线，生成音乐。 2021年，喜马拉雅用TTS技术完美还原单田芳声音，并首次将单田芳的AI合成音应用于风格各异的书籍，用单式评书腔调，全新演绎听众耳熟能详的经典之作。喜马拉雅上已有80多部运用还原自单田芳先生声音制作的专辑。

图像生成：从GAN到扩散模型，图像生成技术迭代发展

2014年生成式对抗网络（Generative Adversarial Nets，GAN）的提出标志着图像生成进入快速发展期。GAN由生成器和判别器两个神经网络组成，其中生成器通过输入数据试图产生欺骗判别器的真实样本，而判别器试图区分真实样本和生成样本。对抗博弈下不断提高性能，达到纳什平衡后生成器可以实现以假乱真的输出。 GAN不需要蒙特卡洛估计来训练网络，G的调整更新不直接来自数据样本，而使用来自D的反向传播，能够更快产生样本。但可解释性差且较难训练，容易产生随机图像，且图像同质化严重、分辨率较低。针对这些，CGAN、StyleGAN被提出来解决难训练和分辨率低的问题。虽然近年来GAN在神经网络架构、损失函数设计、模型训练稳定性、模型崩溃问题上取得了突破，提升了最终图像的特定细节、内在逻辑、生成速度等，但要在实际中大规模运用还需要解决相应问题。

视频生成：与图像生成类似，大量应用集中在视频属性编辑

视频生成原理与图像类似，主流模型为GAN、VAE、Flow-based模型，近年来扩散模型也逐渐应用到视频生成中。 2019年，DeepMind提出了DVD-GAN模型（Dual Video Discriminator GAN)，加入了空间判别器D-S和时间判别器D-T。 GAN在视频生成中的重大突破是一组由50万段10秒高分辨率YouTube视频剪辑汇编成的数据集训练，能够生成具备时间一致性的高分辨率（256 x 256像素）视频。视频生成应用场景主要集中在视频属性编辑、视频自动剪辑、视频部分编辑，前者已有大量应用落地，后两者还处于技术尝试阶段。视频编辑比图像更具挑战性，需要合成新动作，不仅是修改外观，还要保持时间一致性。

跨模态生成：“CLIP+其他模型”成为通用的做法

跨模态定义：跨模态生成，指将一种模态转换成另一种模态，同时保持模态间语义一致性。主要集中在文字生成图片、文字生成视频及图片生成文字。 Transformer架构的跨界应用成为跨模态重要开端之一。多模态训练普遍需要匹配视觉的区域特征和文本特征序列，形成Transformer架构擅长处理的一维长序列，与Transformer的内部技术架构相符合。此外Transformer架构还具有更高的计算效率和可扩展性，为训练大型跨模态模型奠定了基础。 CLIP（Contrastive Language-Image Pre-training，可对比语言-图像预训练算法）成为图文跨模态重要节点。 2021年，OpenAI发布了CLIP，是一种经典的文图跨模态检索模型，在大规模图文数据集上进行了对比学习预训练，具有很强的文图跨模态表征学习能力。CLIP模型包含图像和文本的Encoder两部分，用于对图像和文本分别进行特征抽取。 “CLIP+其他模型”在跨模态生成领域成为较通用的做法，如Disco Diffusion，其原理为CLIP模型持续计算Diffusion模型随机生成噪声与文本表征的相似度，持续迭代修改，直至生成可达到要求的图像。

产业链及相关公司

百度：“创作者AI助理团”助力AIGC智能创作

2022年9月，万象·百度移动生态大会召开，百度发布多项AIGC应用内容生产领域的技术和产品，尤其是“创作者AI助理团”和“百度APP数字人计划”的发布，助力内容创作驶进AIGC元年。百度百家号携手澎湃新闻、新京报等数十家权威媒体成立“AIGC媒体联盟”，推动AI普惠和赋能媒体行业，加速内容生产的智能化。

腾讯：“AI+游戏/数字人”多场景综合布局AIGC

腾讯AI Lab的基础研究方向包括计算机视觉、语音技术、自然语言处理和机器学习，应用探索结合了腾讯场景与业务优势，聚焦于游戏、数字人、内容和社交AI四类，技术已被微信、QQ、天天快报和QQ音乐等上百个腾讯产品使用，并探索AI与生命科学、医疗、农业、工业等行业的创新结合。

昆仑万维：发布“昆仑天工”

2022年12月，昆仑万维举行AIGC技术发布会，正式发布“昆仑天工”AIGC全系列算法与模型，并宣布模型开源。“昆仑天工”旗下模型包括天工巧、天工乐府、天工妙笔、天工智码，覆盖图像、音乐、文本、编程等多模态内容生成能力，标志着昆仑万维成为国内第一个全身心投入到AIGC开源社区的公司。

报告节选

AIGC深度报告：新一轮内容生产力革命的起点_00.png