《AIGC深度报告:新一轮内容生产力革命的起点-国海证券》(附PDF下载)

信息来源:未来智库 发布日期:2023-03-03 主题标签:报告AIGCAI

AIGC破圈元年

AIGC连续破圈:AI绘画/ChatGPT相继破圈

AI绘画作品获奖。2022年8月,在美国科罗拉多州举办的新兴数字艺术家竞赛中,《太空歌剧院》获得“数字艺术/数字修饰照片”类别一等奖。参赛者没有绘画基础,利用AI工具Midjourney创作。

ChatGPT于2022年11月30日推出,5天后用户破百万,两个月后月活用户突破1亿,成为史上用户增长速度最快的消费级应用程序。 风投及产业资本涌入AIGC。 2021年开始,风投对AIGC的投资金额金额出现爆发式增长,2022年超20亿美元。主打AI生成文字的Jasper.ai于2022年10月完成1.25亿美元A轮融资, 估值达15亿美元。AI视觉艺术创业公司Stability.ai获1.01亿美元种子轮融资,投后估值达10亿美元。 据美国财经媒体Semafor报道,微软预计向ChatGPT的开发者OpenAI投资100亿美元,OpenAI投后估值将高达290亿美元。

AIGC定义:新的内容生成方式、基于人工智能的技术集合

AIGC(AI Generated Content)即利用人工智能技术自动生成内容,受制于AI技术成熟度,目前AI仍为内容制作的辅助型角色(AIUGC),待技术突破, AI可真正作为内容创作者(AIGC)。 AIGC是技术集合,基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适 当的泛化能力生成相关内容的技术集合。 相关叫法:合成式媒体(Synthetic Media),即基于AI生成的文字、图像、音频等;Gartner提出的生成式AI(Generative AI),即由人工智能自动生 成新的编程、内容或商业活动,让文字、音乐、图像、视频、场景等都可由AI算法自动生成。 从PGC到UGC,从UGC到AIGC。Web1.0时代“只读”模式催生出“PGC”;Web2.0时代,社交媒体兴起,人与人通过网络交互,催生出以用户生 产和分享内容的“UGC”模式;Web3.0时代,内容消费需求进一步增长,个性化需求凸显,“AIGC”将成为重要的新内容生成方式。

AIGC为何爆发?数据、算法、算力共振

AIGC发展核心三要素:数据、算力、算法。算法持续迭代。2017年推出的Transformer架构的并行训练优势奠定了大模型训练的基础,GPT为代表的预训练模型,通过使用无标注数据预训练及微调, 缓解了标注数据不足的问题,并不断提升参数量级及模型通用性,ChatGPT在此基础上加入了利用人类反馈强化学习的训练方法。扩散模型取代GAN成 为图像生成领域的主流模型,CLIP模型推动跨模态生成技术的发展。 模型商业化及开源释放创造力。GPT3的商业化及CLIP及Stable Diffusion模型的开源推动文本生成、文生图产品化浪潮。

AIGC算法发展历程:谷歌持续重注AIGC研究

2023年2月2日,谷歌研究院等提出了一种视频生成新模型—— Dreamix,受到了AI作图UniTune的启发,将文本条件视频扩散模型 (video diffusion model, VDM)应用于视频编辑。核心是通过两种 主要思路使文本条件VDM保持对输入视频的高保真度:(1)不使用 纯噪声作为模型初始化,而是使用原始视频的降级版本,通过缩小尺 寸和添加噪声仅保留低时空信息;(2)通过微调原始视频上的生成模 型来进一步提升对原始视频保真度。微调确保模型了解原始视频的高 分辨率属性,对输入视频的简单微调会促成相对较低的运动可编辑性, 这是因为模型学会了更倾向于原始运动而不是遵循文本prompt。

AIGC市场空间:从决策走向创造

推动内容生产向高效率和更富创造力方向发展,与多产业融合。不仅是降本增效,更是个性化内容生成。AI不仅能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层 面实现以低边际成本、高效率的方式满足海量个性化需求。根据Sequoiacap,近年来AI模型在手写、语音和图像识别、阅读理解和语言理解方面的表现 逐渐超过了人类的基准水平。而且AI让所有人都能够成为“艺术家”,可无时无刻生成更有创造力、更个性化的内容。 通过支持AI生成式内容与其他产业的多维互动、融合渗透从而孕育新业态新模式,为各行各业创造新的商业模式,提供价值增长新动能。

商业模式:按调用量收费、SaaS订阅收费、增值服务、解决方案等

AIGC的潜在客户主要包括2B端内容生产公司和2C端用户: 2B:在PGC领域实现内容创作高效化,提高PGC活跃度和灵活性。AIGC能够克服人力不足,降低内容生产成本。客户主要为资讯媒体、音乐流媒体、 游戏公司、视频平台、影视制作公司等,如协助影视公司制作电影/剧集视频片段。 2C:在UGC领域实现内容创作低门槛和较高专业度,扩充UGC人群。AIGC能够激发C端用户灵感,且不需要用户具有极强的专业知识,每个人都可以 成为创作者。客户主要为画家、写手、歌手等,如协助音乐小白创作专属于个人的歌曲。 国内AIGC商业模式尚未成型。以写作机器人、自动配音等场景为例,大部分产品仍处在免费试用的“流量吸引+平台改良”阶段。此外,部分公司将 AIGC用于协助自身原有商业体系,如腾讯开发的AI Bot应用于腾讯游戏中,阿里的智能语音服务主要应用于微信,字节跳动则主要基于短视频场景研究AI 赋能。

AIGC应用场景

文本生成:基于NLP技术,受益于预训练语言模型突破发展

自然语言处理技术(NLP)是文本生成的基础。NLP探索计算机和人类(自然)语言之间相互作用,研究实现人与计算机之间用自然语言进行有效通信的 各种理论和方法。最早的自然语言处理研究工作是机器翻译,后逐渐向文本摘要、分类、校对、信息抽取、语音合成、语音识别等方面深入。 从基于规则的经验主义到基于统计的理性主义,再到基于深度学习的方法,NLP在70年历程中逐渐发展进步。受益于预训练语言模型的突破发展, Transformer等底层架构不断精进,NLP取得跨越式提升。

文本生成:已实现大范围的商业落地

文本生成是AIGC实现商业落地最早的技术之一,技术发展显著提高了对于上下文的理解与承接能力、对常识性知识的嵌入能力、中长篇幅生成能力、生 成内容的内在逻辑性等,文本生成迎来质的飞跃。现有的落地场景主要集中在应用型文本生成、创作型文本生成,重点关注闲聊型交互文本生成。

音频生成:TTS场景基本成熟,乐曲创作有发展潜力

音频生成主要应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,目前在众多场景已获初步发展,在部分场景已广泛 应用、趋于成熟。现有的落地场景集中在TTS、语音克隆、乐曲/歌曲生成。

索尼计算机科学实验室(CSL)在2021年9月宣布发布一款AI辅助音乐制作应用程序Flow Machines Mobile(FM Mobile),已登陆苹果App Store, 可以用于iPad。FM Mobile利用AI人工智能技术辅助音乐制作,能够根据创作者选择的风格提示旋律、和弦和贝斯线,生成音乐。 2021年,喜马拉雅用TTS技术完美还原单田芳声音,并首次将单田芳的AI合成音应用于风格各异的书籍,用单式评书腔调,全新演绎听众耳熟能详的经 典之作。喜马拉雅上已有80多部运用还原自单田芳先生声音制作的专辑。

图像生成:从GAN到扩散模型,图像生成技术迭代发展

2014年生成式对抗网络(Generative Adversarial Nets,GAN)的提出标志着图像生成进入快速发展期。GAN由生成器和判别器两个神经网络组成, 其中生成器通过输入数据试图产生欺骗判别器的真实样本,而判别器试图区分真实样本和生成样本。对抗博弈下不断提高性能,达到纳什平衡后生成器可 以实现以假乱真的输出。 GAN不需要蒙特卡洛估计来训练网络,G的调整更新不直接来自数据样本,而使用来自D的反向传播,能够更快产生样本。但可解释性差且较难训练,容 易产生随机图像,且图像同质化严重、分辨率较低。针对这些,CGAN、StyleGAN被提出来解决难训练和分辨率低的问题。 虽然近年来GAN在神经网络架构、损失函数设计、模型训练稳定性、模型崩溃问题上取得了突破,提升了最终图像的特定细节、内在逻辑、生成速度等, 但要在实际中大规模运用还需要解决相应问题。

视频生成:与图像生成类似,大量应用集中在视频属性编辑

视频生成原理与图像类似,主流模型为GAN、VAE、Flow-based模型, 近年来扩散模型也逐渐应用到视频生成中。 2019年,DeepMind提出了DVD-GAN模型(Dual Video Discriminator GAN),加入了空间判别器D-S和时间判别器D-T。 GAN在视频生成中的 重大突破是一组由50万段10秒高分辨率YouTube视频剪辑汇编成的数据 集训练,能够生成具备时间一致性的高分辨率(256 x 256像素)视频。 视频生成应用场景主要集中在视频属性编辑、视频自动剪辑、视频部分编 辑,前者已有大量应用落地,后两者还处于技术尝试阶段。视频编辑比图 像更具挑战性,需要合成新动作,不仅是修改外观,还要保持时间一致性。

跨模态生成:“CLIP+其他模型”成为通用的做法

跨模态定义:跨模态生成,指将一种模态转换成另一种模态,同时保持模态间语义一致性。主要集中在文字生成图片、文字生成视频及图片生成文字。 Transformer架构的跨界应用成为跨模态重要开端之一。多模态训练普遍需要匹配视觉的区域特征和文本特征序列,形成Transformer架构擅长处理的一 维长序列,与Transformer的内部技术架构相符合。此外Transformer架构还具有更高的计算效率和可扩展性,为训练大型跨模态模型奠定了基础。 CLIP(Contrastive Language-Image Pre-training,可对比语言-图像预训练算法)成为图文跨模态重要节点。 2021年,OpenAI发布了CLIP,是一种经典的文图跨模态检索模型,在大规模图文数据集上进行了对比学习预训练,具有很强的文图跨模态表征学习能 力。CLIP模型包含图像和文本的Encoder两部分,用于对图像和文本分别进行特征抽取。 “CLIP+其他模型”在跨模态生成领域成为较通用的做法,如Disco Diffusion,其原理为CLIP模型持续计算Diffusion模型随机生成噪声与文本表征的 相似度,持续迭代修改,直至生成可达到要求的图像。

产业链及相关公司

百度:“创作者AI助理团”助力AIGC智能创作

2022年9月,万象·百度移动生态大会召开,百度发布多项AIGC应用内容生产领域的技术和产品,尤其是“创作者AI助理团”和“百度APP数字人计划”的发布,助 力内容创作驶进AIGC元年。百度百家号携手澎湃新闻、新京报等数十家权威媒体成立“AIGC媒体联盟”,推动AI普惠和赋能媒体行业,加速内容生产的智能化。

腾讯:“AI+游戏/数字人”多场景综合布局AIGC

腾讯AI Lab的基础研究方向包括计算机视觉、语音技术、自然语言处理和机 器学习,应用探索结合了腾讯场景与业务优势,聚焦于游戏、数字人、内容 和社交AI四类,技术已被微信、QQ、天天快报和QQ音乐等上百个腾讯产 品使用,并探索AI与生命科学、医疗、农业、工业等行业的创新结合。

昆仑万维: 发布“昆仑天工”

2022年12月,昆仑万维举行AIGC技术发布会,正式发布“昆仑天工”AIGC全系列算法与模型,并宣布模型开源。“昆仑天工”旗下模型包括天工巧、天工乐府、天 工妙笔、天工智码,覆盖图像、音乐、文本、编程等多模态内容生成能力,标志着昆仑万维成为国内第一个全身心投入到AIGC开源社区的公司。

报告节选

AIGC深度报告:新一轮内容生产力革命的起点_00.png

AIGC深度报告:新一轮内容生产力革命的起点_01.png

AIGC深度报告:新一轮内容生产力革命的起点_02.png

AIGC深度报告:新一轮内容生产力革命的起点_03.png