热门文章
- GPT-4技术报告(附中、英文PDF下载,...
- Meta开源对标神经网络GPT-3的大规模...
- 图解网信办《生成式人工智能服务管理...
- 《哈工大-ChatGPT 调研报告 (仅供内部...
- 《ChatGPT的技术发展路径和带来的影响...
- 《AIGC行业深度报告(7)-ChatGPT:三大...
- 元宇宙“由虚向实”背后:生成式AI技术...
- 《AIGC深度报告:新一轮内容生产力革命...
- 《中国人工智能产业研究报告(Ⅴ):道阻...
- 《兴业证券-AIGC全方位解析与展望》(附...
- 科技公司史上第一次:Meta开源与GPT3...
- 《中国信通院-人工智能生成内容(AIGC)...
- 用全球最快 AI 超算秀肌肉后,黄仁勋...
- 元宇宙的最大变量AI注入后的化学反应
- 《增长黑盒&黑盒点评-2023中国AIGC应...
- 《ChatGPT:开启AI新纪元》(附PDF下载)
- 为元宇宙「打地基」,Meta 开发世界最快...
- AI+元宇宙!Meta离梦想更进一步?
- 微美全息战略投资海百川,AI-Star构建...
- 逐浪AIGC⑤丨大模型狂飙
《AIGC深度报告:新一轮内容生产力革命的起点-国海证券》(附PDF下载)
AIGC破圈元年
AIGC连续破圈:AI绘画/ChatGPT相继破圈
AI绘画作品获奖。2022年8月,在美国科罗拉多州举办的新兴数字艺术家竞赛中,《太空歌剧院》获得“数字艺术/数字修饰照片”类别一等奖。参赛者没有绘画基础,利用AI工具Midjourney创作。
ChatGPT于2022年11月30日推出,5天后用户破百万,两个月后月活用户突破1亿,成为史上用户增长速度最快的消费级应用程序。 风投及产业资本涌入AIGC。 2021年开始,风投对AIGC的投资金额金额出现爆发式增长,2022年超20亿美元。主打AI生成文字的Jasper.ai于2022年10月完成1.25亿美元A轮融资, 估值达15亿美元。AI视觉艺术创业公司Stability.ai获1.01亿美元种子轮融资,投后估值达10亿美元。 据美国财经媒体Semafor报道,微软预计向ChatGPT的开发者OpenAI投资100亿美元,OpenAI投后估值将高达290亿美元。
AIGC定义:新的内容生成方式、基于人工智能的技术集合
AIGC(AI Generated Content)即利用人工智能技术自动生成内容,受制于AI技术成熟度,目前AI仍为内容制作的辅助型角色(AIUGC),待技术突破, AI可真正作为内容创作者(AIGC)。 AIGC是技术集合,基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适 当的泛化能力生成相关内容的技术集合。 相关叫法:合成式媒体(Synthetic Media),即基于AI生成的文字、图像、音频等;Gartner提出的生成式AI(Generative AI),即由人工智能自动生 成新的编程、内容或商业活动,让文字、音乐、图像、视频、场景等都可由AI算法自动生成。 从PGC到UGC,从UGC到AIGC。Web1.0时代“只读”模式催生出“PGC”;Web2.0时代,社交媒体兴起,人与人通过网络交互,催生出以用户生 产和分享内容的“UGC”模式;Web3.0时代,内容消费需求进一步增长,个性化需求凸显,“AIGC”将成为重要的新内容生成方式。
AIGC为何爆发?数据、算法、算力共振
AIGC发展核心三要素:数据、算力、算法。算法持续迭代。2017年推出的Transformer架构的并行训练优势奠定了大模型训练的基础,GPT为代表的预训练模型,通过使用无标注数据预训练及微调, 缓解了标注数据不足的问题,并不断提升参数量级及模型通用性,ChatGPT在此基础上加入了利用人类反馈强化学习的训练方法。扩散模型取代GAN成 为图像生成领域的主流模型,CLIP模型推动跨模态生成技术的发展。 模型商业化及开源释放创造力。GPT3的商业化及CLIP及Stable Diffusion模型的开源推动文本生成、文生图产品化浪潮。
AIGC算法发展历程:谷歌持续重注AIGC研究
2023年2月2日,谷歌研究院等提出了一种视频生成新模型—— Dreamix,受到了AI作图UniTune的启发,将文本条件视频扩散模型 (video diffusion model, VDM)应用于视频编辑。核心是通过两种 主要思路使文本条件VDM保持对输入视频的高保真度:(1)不使用 纯噪声作为模型初始化,而是使用原始视频的降级版本,通过缩小尺 寸和添加噪声仅保留低时空信息;(2)通过微调原始视频上的生成模 型来进一步提升对原始视频保真度。微调确保模型了解原始视频的高 分辨率属性,对输入视频的简单微调会促成相对较低的运动可编辑性, 这是因为模型学会了更倾向于原始运动而不是遵循文本prompt。
AIGC市场空间:从决策走向创造
推动内容生产向高效率和更富创造力方向发展,与多产业融合。不仅是降本增效,更是个性化内容生成。AI不仅能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层 面实现以低边际成本、高效率的方式满足海量个性化需求。根据Sequoiacap,近年来AI模型在手写、语音和图像识别、阅读理解和语言理解方面的表现 逐渐超过了人类的基准水平。而且AI让所有人都能够成为“艺术家”,可无时无刻生成更有创造力、更个性化的内容。 通过支持AI生成式内容与其他产业的多维互动、融合渗透从而孕育新业态新模式,为各行各业创造新的商业模式,提供价值增长新动能。
商业模式:按调用量收费、SaaS订阅收费、增值服务、解决方案等
AIGC的潜在客户主要包括2B端内容生产公司和2C端用户: 2B:在PGC领域实现内容创作高效化,提高PGC活跃度和灵活性。AIGC能够克服人力不足,降低内容生产成本。客户主要为资讯媒体、音乐流媒体、 游戏公司、视频平台、影视制作公司等,如协助影视公司制作电影/剧集视频片段。 2C:在UGC领域实现内容创作低门槛和较高专业度,扩充UGC人群。AIGC能够激发C端用户灵感,且不需要用户具有极强的专业知识,每个人都可以 成为创作者。客户主要为画家、写手、歌手等,如协助音乐小白创作专属于个人的歌曲。 国内AIGC商业模式尚未成型。以写作机器人、自动配音等场景为例,大部分产品仍处在免费试用的“流量吸引+平台改良”阶段。此外,部分公司将 AIGC用于协助自身原有商业体系,如腾讯开发的AI Bot应用于腾讯游戏中,阿里的智能语音服务主要应用于微信,字节跳动则主要基于短视频场景研究AI 赋能。
AIGC应用场景
文本生成:基于NLP技术,受益于预训练语言模型突破发展
自然语言处理技术(NLP)是文本生成的基础。NLP探索计算机和人类(自然)语言之间相互作用,研究实现人与计算机之间用自然语言进行有效通信的 各种理论和方法。最早的自然语言处理研究工作是机器翻译,后逐渐向文本摘要、分类、校对、信息抽取、语音合成、语音识别等方面深入。 从基于规则的经验主义到基于统计的理性主义,再到基于深度学习的方法,NLP在70年历程中逐渐发展进步。受益于预训练语言模型的突破发展, Transformer等底层架构不断精进,NLP取得跨越式提升。
文本生成:已实现大范围的商业落地
文本生成是AIGC实现商业落地最早的技术之一,技术发展显著提高了对于上下文的理解与承接能力、对常识性知识的嵌入能力、中长篇幅生成能力、生 成内容的内在逻辑性等,文本生成迎来质的飞跃。现有的落地场景主要集中在应用型文本生成、创作型文本生成,重点关注闲聊型交互文本生成。
音频生成:TTS场景基本成熟,乐曲创作有发展潜力
音频生成主要应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,目前在众多场景已获初步发展,在部分场景已广泛 应用、趋于成熟。现有的落地场景集中在TTS、语音克隆、乐曲/歌曲生成。
索尼计算机科学实验室(CSL)在2021年9月宣布发布一款AI辅助音乐制作应用程序Flow Machines Mobile(FM Mobile),已登陆苹果App Store, 可以用于iPad。FM Mobile利用AI人工智能技术辅助音乐制作,能够根据创作者选择的风格提示旋律、和弦和贝斯线,生成音乐。 2021年,喜马拉雅用TTS技术完美还原单田芳声音,并首次将单田芳的AI合成音应用于风格各异的书籍,用单式评书腔调,全新演绎听众耳熟能详的经 典之作。喜马拉雅上已有80多部运用还原自单田芳先生声音制作的专辑。
图像生成:从GAN到扩散模型,图像生成技术迭代发展
2014年生成式对抗网络(Generative Adversarial Nets,GAN)的提出标志着图像生成进入快速发展期。GAN由生成器和判别器两个神经网络组成, 其中生成器通过输入数据试图产生欺骗判别器的真实样本,而判别器试图区分真实样本和生成样本。对抗博弈下不断提高性能,达到纳什平衡后生成器可 以实现以假乱真的输出。 GAN不需要蒙特卡洛估计来训练网络,G的调整更新不直接来自数据样本,而使用来自D的反向传播,能够更快产生样本。但可解释性差且较难训练,容 易产生随机图像,且图像同质化严重、分辨率较低。针对这些,CGAN、StyleGAN被提出来解决难训练和分辨率低的问题。 虽然近年来GAN在神经网络架构、损失函数设计、模型训练稳定性、模型崩溃问题上取得了突破,提升了最终图像的特定细节、内在逻辑、生成速度等, 但要在实际中大规模运用还需要解决相应问题。
视频生成:与图像生成类似,大量应用集中在视频属性编辑
视频生成原理与图像类似,主流模型为GAN、VAE、Flow-based模型, 近年来扩散模型也逐渐应用到视频生成中。 2019年,DeepMind提出了DVD-GAN模型(Dual Video Discriminator GAN),加入了空间判别器D-S和时间判别器D-T。 GAN在视频生成中的 重大突破是一组由50万段10秒高分辨率YouTube视频剪辑汇编成的数据 集训练,能够生成具备时间一致性的高分辨率(256 x 256像素)视频。 视频生成应用场景主要集中在视频属性编辑、视频自动剪辑、视频部分编 辑,前者已有大量应用落地,后两者还处于技术尝试阶段。视频编辑比图 像更具挑战性,需要合成新动作,不仅是修改外观,还要保持时间一致性。
跨模态生成:“CLIP+其他模型”成为通用的做法
跨模态定义:跨模态生成,指将一种模态转换成另一种模态,同时保持模态间语义一致性。主要集中在文字生成图片、文字生成视频及图片生成文字。 Transformer架构的跨界应用成为跨模态重要开端之一。多模态训练普遍需要匹配视觉的区域特征和文本特征序列,形成Transformer架构擅长处理的一 维长序列,与Transformer的内部技术架构相符合。此外Transformer架构还具有更高的计算效率和可扩展性,为训练大型跨模态模型奠定了基础。 CLIP(Contrastive Language-Image Pre-training,可对比语言-图像预训练算法)成为图文跨模态重要节点。 2021年,OpenAI发布了CLIP,是一种经典的文图跨模态检索模型,在大规模图文数据集上进行了对比学习预训练,具有很强的文图跨模态表征学习能 力。CLIP模型包含图像和文本的Encoder两部分,用于对图像和文本分别进行特征抽取。 “CLIP+其他模型”在跨模态生成领域成为较通用的做法,如Disco Diffusion,其原理为CLIP模型持续计算Diffusion模型随机生成噪声与文本表征的 相似度,持续迭代修改,直至生成可达到要求的图像。
产业链及相关公司
百度:“创作者AI助理团”助力AIGC智能创作
2022年9月,万象·百度移动生态大会召开,百度发布多项AIGC应用内容生产领域的技术和产品,尤其是“创作者AI助理团”和“百度APP数字人计划”的发布,助 力内容创作驶进AIGC元年。百度百家号携手澎湃新闻、新京报等数十家权威媒体成立“AIGC媒体联盟”,推动AI普惠和赋能媒体行业,加速内容生产的智能化。
腾讯:“AI+游戏/数字人”多场景综合布局AIGC
腾讯AI Lab的基础研究方向包括计算机视觉、语音技术、自然语言处理和机 器学习,应用探索结合了腾讯场景与业务优势,聚焦于游戏、数字人、内容 和社交AI四类,技术已被微信、QQ、天天快报和QQ音乐等上百个腾讯产 品使用,并探索AI与生命科学、医疗、农业、工业等行业的创新结合。
昆仑万维: 发布“昆仑天工”
2022年12月,昆仑万维举行AIGC技术发布会,正式发布“昆仑天工”AIGC全系列算法与模型,并宣布模型开源。“昆仑天工”旗下模型包括天工巧、天工乐府、天 工妙笔、天工智码,覆盖图像、音乐、文本、编程等多模态内容生成能力,标志着昆仑万维成为国内第一个全身心投入到AIGC开源社区的公司。
报告节选
元宇宙神评
相关主题
-
《AIGC行业深度报告(7)-ChatGPT:三大主线,AI算力需求井喷!》(附PDF下载)
内容概要:政策端与产业端持续发力,算力建设持续提速;大模型引爆海量算力需求,AI产业量价齐升;全球算力市场持续火热,AI芯片群星闪耀。
-
《兴业证券-AIGC全方位解析与展望》(附PDF下载)
内容概要:Gartner 预计,2022 年 AIGC 占全球数字数据量为1%,到 2025 年,这一比例将提升至10%。
-
《增长黑盒&黑盒点评-2023中国AIGC应用研究报告》(附PDF下载)
-
图解网信办《生成式人工智能服务管理办法(征求意见稿)》V1.0.0(附PDF下载)
内容概要:2023年4月11日,国家互联网信息办公室发布《生成式人工智能服务管理办法(征求意见稿)》,面向社会公开征求意见,旨在促进生成式人工智能技术健康发展和规范应用。
-
逐浪AIGC⑱丨迈入混战时代:科技公司竞速AI大模型
内容概要:目前AI大模型处于百花齐放的状态。
-
逐浪AIGC⑰丨AI迈入群雄逐鹿时代 阿里巴巴全方位迎战
内容概要:张勇的新开始,也是阿里云的新征程。
-
【元宇宙之约】第019期:AIGC能快速构建元宇宙行业的基础设施
内容概要:在雷涛看来,大模型只是解决基础能力,真正到每一个领域应用还是需要去做自己的数据训练;基础模型需要真正去理解用户,因为用户的问题是千差万别,答案也会千差万别。
-
逐浪AIGC⑯|Meta入局来势汹涌 “生成式AI”引发技术争鸣
-
逐浪AIGC⑮ | AI伦理之惑:马斯克等科技大佬为何拦停GPT-5
内容概要:如今,我们的社会已经暂停其他可能造成灾难性影响的技术,对于人工智能也应该如此,“让我们享受一个漫长的‘AI之夏’,而不是毫无准备地进入秋天”。
-
逐浪AIGC⑭|黄仁勋对话OpenAI创始人 现代AI和ChatGPT如何诞生
内容概要:它还是那个神经网络,只是变得更强大。
-
逐浪AIGC⑬丨英伟达新GPU“炸场”,未来人人都可以是程序员?
内容概要:AIGC算力成本有望大降?
-
逐浪AIGC⑫|制造“iPhone时刻”,英伟达再塑AI算力上限
-
逐浪AIGC⑪|半百微软,扎进AI变局
-
逐浪AIGC⑩丨AI热潮下的惊喜、失落与期待
内容概要:国内AI生态的构建同样值得期待。
-
逐浪AIGC⑨丨文心一言实测体验:语文满分、数学学渣、画画水平一般般
内容概要:目前大概是个偏科严重的文科生吧。
-
逐浪AIGC⑥丨文心一言开放测试 百度股价逆风翻盘
内容概要:AI大模型时代降临,本土大厂机会来了。
-
逐浪AIGC⑧丨GPT-4诞生次日,微软Office重生
内容概要:这其实是一场产业叠加的爆发。
-
逐浪AIGC⑦丨在新一轮AI全球竞赛中,中国企业要抓住产业场景优势
内容概要:在AI领域,中国企业也能够走出中国特色。
-
逐浪AIGC⑤丨大模型狂飙
-
逐浪AIGC④丨新的AI浪潮来临,创业者该做什么?
内容概要:ChatGPT正掀起一场新的AI浪潮。
-
《2023年AIGC应用与实践展望报告-甲子光年》(附PDF下载)
内容概要:甲子光年智库特此展开AIGC应用与实践研究,输出《AIGC应用与实践研究报告》,期待与各方共同见证AIGC行业的星辰大海。
-
《AIGC行业深度报告(6)-ChatGPT:存算一体,算力的下一极》(附PDF下载)
内容概要:ChatGPT开启大模型“军备赛”,算力呈现明显缺口。存算一体,后摩尔时代的必然发展,存算一体为人工智能发展的必然选择。
-
平台押注资本追捧 视听产业成元宇宙场景应用第一战场
内容概要:报告显示,元宇宙是一个需要长期才能实现的目标,在实现元宇宙的旅程之中会不断地出现像AIGC这样的爆点。有了AIGC支持后,人类至少一只脚已经开始在往真正的元宇宙时代迈进。
-
《黑镜》里“自制”AI男友成真,GPT让普通人轻松构建元宇宙
-
《中国人工智能产业研究报告(Ⅴ):道阻且长,行而不辍》(附PDF下载)
内容概要:AI成为企业数字化、智能化改革的重要抓手,也是各行业领军企业打造营收护城河的重要方向。落地AI应用对企业业务运营的商业价值与战略意义越来越明确。
-
《AIGC行业深度报告(5)-ChatGPT:加速计算服务器时代到来》(附PDF下载)
内容概要:ChatGPT的竞争本质即大模型储备竞赛,大模型出现带动AI服务器呈现加速状态,服务器架构随负载量扩张而不断优化,数字经济时代,服务器应用前景广阔。
-
《AIGC行业深度报告(4)-ChatGPT:百度文心一言畅想》(附PDF下载)
-
《AIGC行业深度报告(2)-ChatGPT,重新定义搜索“入口”》(附PDF下载)
-
《中国信通院-人工智能生成内容(AIGC)白皮书(2022年)》(附PDF下载)
-
5G+AI+XR,高通藏在元宇宙里的三驾马车
内容概要:作为细分赛道的龙头企业,高通比多数厂商们更早地感受到行业变化,早早在元宇宙做好技术储备,其元宇宙布局已初具雏形。相比其他底层技术厂商,高通凭借着其独一无二专为XR设备设计的芯片平台领先一步。
-
元宇宙遥不可及?专家:AI是元宇宙重要支撑,已有众多结合及落地案例
-
Meta持续动荡:AI部门拆散重组,杨立昆投身元宇宙部门
-
Meta启示:AI是通往元宇宙的关键变量
-
Meta公司推多个AI项目布局元宇宙
-
如果银行也来“元宇宙”……你怎么看?
-
AI+元宇宙!Meta离梦想更进一步?
-
【元宇宙之约】第018期:AIGC将为元宇宙解决两个技术难题
-
放弃元宇宙,转型AI?Meta:不,两个我都要
-
加速元宇宙创新生态,阿里云和伙伴一起探寻奇点
-
中国 AIGC 与元宇宙创新创业创作大赛即将启动
内容概要:在实现元宇宙的过程中,会不断出现像AIGC这样的爆点,而我们将通过大赛的方式去追踪,用大赛去覆盖元宇宙成长过程中的每一个关键技术突破。
-
AIGC挑战广告狂人!Meta推出AI生成广告服务,已填补公司百亿损失
内容概要:在竞争激烈的广告营销市场中,大数据和AI作用下的精准化打击能起到增益,也能大大降低内容制作成本,但创意、内容以及对目标客户的理解程度才是永恒的核心竞争力。
-
各大企业巨亏裁员,元宇宙会是又一个泡沫吗?
-
一文详解AIGC:推动元宇宙发展的加速器
内容概要:AIGC的出现意味着创作者将从繁冗的基础性工作中解脱出来,把更多的精力放到创意表达上,这是未来内容创作行业,甚至是人类工作方式的整体趋势。
-
一文读懂AIGC,万亿新赛道为何今年获得爆发?
-
从AI画画到“用声音做视频”,全球掘金AIGC
内容概要:登台的新宠儿名为“AIGC”,又称“生成式AI”(Generative AI)。这一领域正以令人侧目的速度发展,将创新和技术再度拉回到世界舞台的焦点。
-
《社交元宇宙的技术挑战与探索》(附PDF下载)
内容概要:社交元宇宙的场景,以及在当前及未来的阶段的一些技术尝试和探索,用AI,渲染等底层技术去创造内容,帮助用户赋能,与用户一起打造元宇宙时代的社交平台。
-
《解构未来:元宇宙技术实践与应用2023》(附PDF下载)
内容概要:那么人类到底如何才能够在众多的元宇宙空间中实现“自由切换与无缝衔接开放世界”,或许在白皮书中能够找到部分答案。
-
《LABS3.io-WEB3/元宇宙汽车行业应用数据 报告》(附PDF下载)
内容概要:该报告涵盖了59个汽车相关品牌的145个Web3/元宇宙项目,以更理性、更数据化的方式,回顾汽车品牌过去在元宇宙与web3.0领域的营销探索,最终预测该行业未来的营销趋势。
-
《毕马威-消费+元宇宙:重构消费想象,再造市场空间》(附PDF下载)
内容概要:元宇宙在消费行业的应用不仅仅是一个技术创新,更是一个消费和生产模式的革命,它将改变我们生产、购买商品和服务的方式,以及消费产业链的运行模式。
-
《毕马威-元宇宙生存之道:内部发力,满盘皆活》(附PDF下载)
内容概要:对未知的将来进行大量投资需要一定的代价;正因如此,我们的调查显示许多企业的投入相对较低;然而,袖手旁观也会付出代价。
-
《多技术融合推动,元宇宙应用破局向前:2023爱分析・元宇宙实践报告》(附PDF下载)
-
《工业元宇宙白皮书》、《工业元宇宙 园区应用白皮书》发布(附PDF下载)
内容概要:本报告对工业元宇宙的概念内涵、可能引发的变革、概念框架、支撑体系进行了阐述,并给出了推进建议,希望为工业元宇宙的落地应用和产业发展提供参考。
-
GPT-4技术报告(附中、英文PDF下载,含GPT-4 System Card_中文)
内容概要:这份技术报告介绍了 GPT-4,一种能处理图像和文本输入并生成文本输出的大型多模态模型。这类模型非常重要,因为它们有潜力被广泛应用于对话系统、文本摘要和机器翻译等领域。
-
《全球暨台湾元宇宙产业发展》(附PDF下载)
-
《ChatGPT的技术发展路径和带来的影响》(附PDF下载)
内容概要:InstructGPT/ChatGPT的效果非常亮眼,引入了人工标注之后,让模型的“价值观”和的正确程度和人类行为模式的“真实性”上都大幅的提升。