热门文章
- GPT-4技术报告(附中、英文PDF下载,...
- Meta开源对标神经网络GPT-3的大规模...
- 图解网信办《生成式人工智能服务管理...
- 《哈工大-ChatGPT 调研报告 (仅供内部...
- 《ChatGPT的技术发展路径和带来的影响...
- 《AIGC行业深度报告(7)-ChatGPT:三大...
- 元宇宙“由虚向实”背后:生成式AI技术...
- 《AIGC深度报告:新一轮内容生产力革命...
- 《中国人工智能产业研究报告(Ⅴ):道阻...
- 《兴业证券-AIGC全方位解析与展望》(附...
- 科技公司史上第一次:Meta开源与GPT3...
- 《中国信通院-人工智能生成内容(AIGC)...
- 用全球最快 AI 超算秀肌肉后,黄仁勋...
- 元宇宙的最大变量AI注入后的化学反应
- 《增长黑盒&黑盒点评-2023中国AIGC应...
- 《ChatGPT:开启AI新纪元》(附PDF下载)
- 为元宇宙「打地基」,Meta 开发世界最快...
- AI+元宇宙!Meta离梦想更进一步?
- 微美全息战略投资海百川,AI-Star构建...
- 逐浪AIGC⑤丨大模型狂飙
AI手语主播通过朱广权魔鬼面试,残影级手速无惧贯口,今已正式上岗助力冰雪盛会
什么样的手语主播能跟朱广权battle得有来有回?
话不多说,咱直接板凳瓜子备齐,一起前排围观(手动狗头):
只见朱广权语速起飞,妙语连珠,频出“魔鬼”面试题,但这位手语老师完全没在怕的:
如此表现,不仅面试官朱广权连连夸赞“精彩”,网友们也纷纷点赞。
没错,这位手语主播并非真人,而是一名来自百度智能云的虚拟数字人。
现在,她已正式上岗冰雪盛会,将在各类冰雪赛事中,为2780万听障人士提供24小时不间断的手语服务。
虽然是初次上岗,但这位AI手语数字人的专业度不容小觑。
根据测评,其手语可懂度能达到85%以上,与主流的中英、中日机器翻译结果相差无几。
毕竟,“台上一分钟,台下十年功”,为了给听障人士们奉上这精彩的瞬间,AI手语数字人背后的程序员们,已经下了不少苦工。
手语数字人背后的技术挑战
在聊技术之前,或许你会好奇这样一个问题,明明有字幕,为啥体育赛事等电视节目还需要手语解说?
实际上,由于种种现实因素的制约,比起文字,手语对听障人士而言更加亲切,也能更快速地传递信息。
因此,屏幕一角的手语翻译,对于特殊人群而言其实是一个“更加平等享受资讯”的窗口。
这也就给AI手语数字人提出了一个本质的技术问题:如何让听障人士能真正看懂数字人打出的手语?
乍一看,这就是个从语音到文本,从文本到手语符号,再到手语数字人动作的一个翻译流程,但深究其背后的技术细节,就会发现需要克服的难点要比表面看上去复杂得多。
首先,语音转手语,并不是简单地构建一个语音到视觉的转换模型就行。
单就语序而言,手语和自然语言之间就存在较大的差异。举个例子,“我想回家”这样一句话,用手语打出来的顺序其实是“家 回 我想”。
并且,手语还有语言精简的特性,手语的描述会对口语进行精简。
也就是说,如果只是生硬地把口语中的词汇转换成手势,再把动作简单地连接起来,这样打出的手语只能说是“半吊子手语”,听障人士很难看懂。
其次,表情神态同样是手语表达中极为重要的部分。
有时一个手势代表好几个意思,如果没有表情和口型的配合,就可能产生误解。
除此之外,还要考虑数据匮乏、数字人动作灵活度欠缺等种种问题。
总而言之,想要打造一个高质量手语数字人,既需要语音、视觉、自然语言处理等AI技术同时发力,也少不了对于听障人士真实需求的深入调研。
所以,这一次百度智能云的程序员们是如何成功让AI手语主播具备助力冰雪盛会的实力的?
2个月,“做难而正确的事”
研发团队接到手语数字人任务时,距离万众期待的冰雪盛会已仅剩不到2个月的时间。
但就是在这种几乎没有时间试错的情况下,程序员们却放弃了现成的手势汉语语料。
正如前文所言,汉语到手势的简单转换在很多情况下会让听障观众产生理解歧义,实际效果其实是大打折扣的。
为了“治本”,尽管面临数据需要从头采集标注、额外增加的成本难以预估的压力,百度智能云团队还是果断选择了自然手语语料:
做就做难而正确的事。
为此,百度智能云团队联合天津理工大学,组织了上百位听障学生做语料的数据标注,同时邀请手语委专家、特殊教育专家等专业人士,将大量行业知识融合到模型效果和听障人群的体验当中。
打下了高质量的基础,接下来,就是一步步解决手语数字人“听得清”、“会翻译”、“会表达”三个问题。
“听得清”,要靠语音识别模型。
ASR语音识别方面,在NLP、语音领域有着逾10年积累的百度本身已具备成熟的解决方案,识别准确率能达到98%以上,还能hold住中英文混杂、生僻字、方言等特殊场景。
“会翻译”,用上的就是手语翻译模型。
与一般的语言翻译模型不同,由于前文提到的手语表达中语言精简等特性,手语翻译模型需要着重考虑精准度和精简度。
其中精准度影响到数字人手势的精准,而精简度会影响传递信息的及时性。
在高质量数据资源和百度多年积累的神经网络翻译技术的基础上,研发团队设计了从中文文本到手语符号的翻译方法。
通过大规模知识学习、中间件控制等手段,研发团队成功在保障翻译准确率的情况下缩减了译文长度,实现了翻译效果和时延的平衡。
2个月的时间里,经过6次大的版本迭代,这一手语翻译模型可懂度最终达到了85%以上,媲美主流的中英、中日等方向的机器翻译结果,达到了业界领先水平。
最后,数字人的表达靠的是动作生成模型,包括手势、口型、表情的生成。
针对手势问题,研发团队运用人体动作视觉识别技术,让AI学习手语视频,将其中的二维骨骼点转化为驱动三维数字人的手语动作,并且能够精确到每一根手指。
基于此,百度智能云已经建立起拥有近1万个手语动作的强大动作库。
而在口型和表情方面,研发团队运用首创的4D扫描数据进行训练,对表情和口型进行精准校正,通过超10万个全身多边形面、超1万个脸部面、超240个面部表情行变基、超100个身体骨骼界限,赋予了手语数字人自然生动的表情。
wink、吹泡泡都不在话下:
总体上,口型生成的准确度能够超过98.5%。
“降低成本是虚拟数字人发展的关键”
说到这里,想必你也看出来了,百度智能云的程序员们能够大胆挑战更有难度的技术路线,与百度本身长期积累的AI技术、数字人技术不无关系。
实际上,在数字人的生产上,百度已经把上述人像驱动技术、智能对话技术、语音交互技术,以及智能推荐技术汇总到了其平台级产品——百度智能云曦灵平台上。
百度智能云曦灵集数字人生产、内容创作、业务配置服务为一体,无论是虚拟员工这样的服务型数字人,还是虚拟主持人、虚拟偶像这样的演艺型数字人,都能基于该平台一站式打造,甚至是“一句话生成”。
此前与马斯克妈妈梅耶·马斯克对话的百度集团数字人“希加加”:
能够弹琴献唱的“龚俊数字人”:
就都是基于百度智能云曦灵打造。
目前,百度智能云曦灵平台已经推出了3D写实、2D写实、3D卡通三条生产线,实现了银行/保险、运营商、媒体/广电、互娱/品牌商、MCN/艺人经纪等全场景覆盖,一站式打造“能听、能说、能理解、可互动”的数字人。
这就大大加速了一个数字人从设计到落地的流程,有效降低了数字人生产的成本,为数字人的规模化应用打下了基础。
百度集团副总裁吴甜在参加央视《对话》节目录制时还谈到这样的观点:
降低成本是虚拟数字人发展的关键之一。
百度希望通过领先的全栈AI能力,把虚拟人的生产周期缩短到小时级别,降低生产成本,并驱动生成内容。
科技让世界更公平
严格说起来,数字人并不算是全新的事物。
在过去几年中,随着AI等技术的成熟,以及短视频、直播等新兴媒介需求的涌现,数字人正不断涌现出新的面貌和新的应用模式。
而从被提出到今天的广泛落地,“数字人”这一科技热词,其实也已经历了好几个认知阶段。
第一阶段,大家探讨的重点是数字人“真不真”,这是新技术之初见。
当技术落地的尝试开始展开,第二阶段围绕“危机感”的讨论便随之而来:人们开始关注数字人是否会侵占掉人类的工作机会。
现在,或许我们对数字人的认知,又到了进入新阶段的时候。
正如AI手语数字人让冰雪赛事的魅力触达到了更多人群,越来越多的落地案例正在说明,数字人作为一种提升服务效率的方式,并非在“替代”人类工作,而是在填补人力所不能及的空白。
这也正是科技背后真正的价值——并非取而代之,而是帮助人、做人所不能之事。
而当百度这样的科技企业,致力于降低技术的成本、加速技术的落地,体现出的亦正是科技工作者的社会责任担当。
从这个角度来讲,前沿技术俨然不再冰冷和遥远,而是真正在让人类共同体变得更加公平和美好。
你觉得呢?
元宇宙神评
相关主题
-
逐浪AIGC⑮ | AI伦理之惑:马斯克等科技大佬为何拦停GPT-5
内容概要:如今,我们的社会已经暂停其他可能造成灾难性影响的技术,对于人工智能也应该如此,“让我们享受一个漫长的‘AI之夏’,而不是毫无准备地进入秋天”。
-
逐浪AIGC⑭|黄仁勋对话OpenAI创始人 现代AI和ChatGPT如何诞生
内容概要:它还是那个神经网络,只是变得更强大。
-
逐浪AIGC⑬丨英伟达新GPU“炸场”,未来人人都可以是程序员?
内容概要:AIGC算力成本有望大降?
-
逐浪AIGC⑩丨AI热潮下的惊喜、失落与期待
内容概要:国内AI生态的构建同样值得期待。
-
逐浪AIGC⑥丨文心一言开放测试 百度股价逆风翻盘
内容概要:AI大模型时代降临,本土大厂机会来了。
-
逐浪AIGC⑧丨GPT-4诞生次日,微软Office重生
内容概要:这其实是一场产业叠加的爆发。
-
逐浪AIGC⑤丨大模型狂飙
-
逐浪AIGC③丨国产版ChatGPT打响“第一枪”:文心一言终亮相
内容概要:先上桌,才能进入快速迭代的飞轮。
-
逐浪AIGC②丨别只盯着ChatGPT了,这波AI浪潮远不止于此
内容概要:AI 2.0是绝对不能错过的一次革命。
-
逐浪AIGC①丨OpenAI正式发布GPT-4 向超级AI进发?
-
《AIGC行业深度报告(3)-ChatGPT打响AI算力“军备战”》(附PDF下载)
内容概要:与通用服务器相比,AI服务器拥有更出色的高性能计算能力,未来,随着算力的持续增长,自然语言处理和图像、视频等AI模型的深入发展,AI服务器将被更广泛使用。
-
《AIGC行业深度报告(7)-ChatGPT:三大主线,AI算力需求井喷!》(附PDF下载)
内容概要:政策端与产业端持续发力,算力建设持续提速;大模型引爆海量算力需求,AI产业量价齐升;全球算力市场持续火热,AI芯片群星闪耀。
-
《兴业证券-AIGC全方位解析与展望》(附PDF下载)
内容概要:Gartner 预计,2022 年 AIGC 占全球数字数据量为1%,到 2025 年,这一比例将提升至10%。
-
《增长黑盒&黑盒点评-2023中国AIGC应用研究报告》(附PDF下载)
-
图解网信办《生成式人工智能服务管理办法(征求意见稿)》V1.0.0(附PDF下载)
内容概要:2023年4月11日,国家互联网信息办公室发布《生成式人工智能服务管理办法(征求意见稿)》,面向社会公开征求意见,旨在促进生成式人工智能技术健康发展和规范应用。
-
逐浪AIGC⑱丨迈入混战时代:科技公司竞速AI大模型
内容概要:目前AI大模型处于百花齐放的状态。
-
逐浪AIGC⑰丨AI迈入群雄逐鹿时代 阿里巴巴全方位迎战
内容概要:张勇的新开始,也是阿里云的新征程。
-
【元宇宙之约】第019期:AIGC能快速构建元宇宙行业的基础设施
内容概要:在雷涛看来,大模型只是解决基础能力,真正到每一个领域应用还是需要去做自己的数据训练;基础模型需要真正去理解用户,因为用户的问题是千差万别,答案也会千差万别。
-
逐浪AIGC⑯|Meta入局来势汹涌 “生成式AI”引发技术争鸣
-
逐浪AIGC⑫|制造“iPhone时刻”,英伟达再塑AI算力上限
-
逐浪AIGC⑪|半百微软,扎进AI变局
-
《2023年AIGC应用与实践展望报告-甲子光年》(附PDF下载)
内容概要:甲子光年智库特此展开AIGC应用与实践研究,输出《AIGC应用与实践研究报告》,期待与各方共同见证AIGC行业的星辰大海。
-
《AIGC行业深度报告(6)-ChatGPT:存算一体,算力的下一极》(附PDF下载)
内容概要:ChatGPT开启大模型“军备赛”,算力呈现明显缺口。存算一体,后摩尔时代的必然发展,存算一体为人工智能发展的必然选择。
-
AI+元宇宙!Meta离梦想更进一步?
-
【元宇宙之约】第018期:AIGC将为元宇宙解决两个技术难题
-
平台押注资本追捧 视听产业成元宇宙场景应用第一战场
内容概要:报告显示,元宇宙是一个需要长期才能实现的目标,在实现元宇宙的旅程之中会不断地出现像AIGC这样的爆点。有了AIGC支持后,人类至少一只脚已经开始在往真正的元宇宙时代迈进。
-
武昌区域媒体联盟成立 虚拟形象代言人“武畅儿”亮相
内容概要:“‘武畅儿’形象的推出,既是武昌创新城区形象宣传的推介手段,也是布局元宇宙新赛道,培育新型文化业态,构建数字文化创意产业生态圈的重要举措。
-
放弃元宇宙,转型AI?Meta:不,两个我都要
-
《中国人工智能产业研究报告(Ⅴ):道阻且长,行而不辍》(附PDF下载)
内容概要:AI成为企业数字化、智能化改革的重要抓手,也是各行业领军企业打造营收护城河的重要方向。落地AI应用对企业业务运营的商业价值与战略意义越来越明确。
-
加速元宇宙创新生态,阿里云和伙伴一起探寻奇点
-
《AIGC行业深度报告(5)-ChatGPT:加速计算服务器时代到来》(附PDF下载)
内容概要:ChatGPT的竞争本质即大模型储备竞赛,大模型出现带动AI服务器呈现加速状态,服务器架构随负载量扩张而不断优化,数字经济时代,服务器应用前景广阔。