元宇宙落地需要什么样的技术?

信息来源:新华网 发布日期:2022-01-17 主题标签:游戏引擎分辨率刷新率低延迟

111.jpg

2022年1月5日,在美国拉斯维加斯消费电子展上,人们试用自动驾驶船技术

  如果能在100毫秒内,把记录一个人每时每刻行为的数据传输到云端并处理完毕,那么元宇宙的爆发点也就来临了。

  2022年1月5日,在一年一度的美国拉斯维加斯消费电子展(CES)上,英伟达公司发布了正式版本的开源平台Omniverse。Omniverse是英伟达为科学研究、模拟仿真、内容创作等构建的云平台,用户可以在其共享的虚拟空间中实时协同工作。Omniverse也因此被称为“工程师的元宇宙”。

  与2020年发布的测试版、2021年发布的付费企业版相比,如今的Omniverse将向全球数百万个人创作者免费开放。

  近来,“元宇宙”的概念常常引发IT圈对于既有概念的争论:什么是数字化?什么是数字化转型?之前的信息化是不是过时了?最近几年出现数字中台、数字孪生、数据湖这些概念后,传统的ERP(企业资源计划)系统是不是该被业务中台替代了?

  要想从这些纷繁芜杂的概念中跳脱出来,从更本质的角度去理解“数字化”,不妨找一个纯粹的数字化场景。

  电影《黑客帝国》《西部世界》《失控玩家》展示了人类生活在数字世界里的可能形态。其中《西部世界》提供了一个走向元宇宙的技术方法——观察一个人,把他看到、听到、触摸到、感受到的一切,都用AI一遍又一遍地模拟,直到误差为零。

  这样的方法,在智能汽车自动驾驶领域其实已经有了一些实践。比如有些智能汽车的开发者一开始就是把程序放在GTA(《侠盗猎车手》)游戏中去训练的,也有些智能汽车对AI的训练过程是通过摄像头不断观察周边环境,并记录人类的操作,同时不断地与AI自己的判断进行比较,直到AI最终也能通过有限的信息去驾驶汽车。

  大数据的训练可以让AI迭代速度非常快,而且车也是一个相对标准的操作对象。因此,如果全世界所有驾驶员都在教AI怎样开车,自动驾驶的落地速度会非常快,哪怕只是依靠摄像头。

  那么,说到元宇宙,它落地需要一些什么样的技术呢?

  4G普及后,视频和短视频的普及速度非常快。今天,许多人在搜索信息时,会从文本平台转向短视频平台。因为视频提供了一个更加真实的场景,其信息损失和偏差比文字要小得多。

  以视频为例,如果AI需要运用一个人的所有数据来做训练,那它需要多大的数据量?成本有多高?如果本地无法处理,是否可以在云上计算这些数据呢?这个问题要考虑如下参数:

  第一个参数是分辨率。人眼的分辨率大概是5亿像素,这并不是一个高不可及的参数,现在的手机已经出现1亿像素的摄像头了,基本上能达到要求。

  第二个参数是刷新率。人眼对于120赫兹以上的刷新率是几乎察觉不到变化的。电影24帧不会让人觉得卡顿,玩射击游戏的电竞屏做到144~240赫兹基本上就可以满足人的要求。人类对世界并不需要一个连续的采样,只要有限的数据就可以满足人的感官。

  最后一个参数是延迟。人接收信息并做出反应需要多长时间?网上有一些简单的程序能给人做测试,比如一个红色的页面,指示人在页面变绿时按下鼠标。人类的平均反应时间大概为200~250毫秒。大脑的反应慢一点,如果是经过小脑,反应速度会快一点,那也叫下意识的动作。假设人的极限反应时间是100毫秒,如果AI能在自动驾驶时把判断和操作控制在100毫秒以内,那它的速度是快于大部分人类的。

  做技术的人都非常关注成本,成本是决定一个技术能否普及的关键。成本可以通过一个简单的例子来探讨——假如用iPhone视频记录一个人的一生,成本大概是多少?

  每分钟的视频文件大小为375MB,每TB的磁盘成本为750元,100年的记录成本大约是388万元——这并不是一个天文数字。如果这个成本能降到10万元以内,相信一些人会有兴趣把自己的一生记录下来。毕竟,这个数字化的人生会更容易让后人记住。

  现在人们有时候会觉得AI比较弱智,很多问题它都不懂,也无法回答准确,主要还是因为AI的数据积累还不够,AI缺少完整连续的数据和偏差纠正。如果拥有一个人一生的视频记录,AI就足以读懂一个人,并在100毫秒内做出那个人该有的反应。届时,用AI来模拟人类的行为,就变得非常现实了。

  不过,元宇宙的落地并不能简单地依赖视频存储和计算成本的下降。从技术的角度来讲,视频并不是元宇宙最优的数据结构,因为它不好做分析,也不适合做数据共享。跟视频比起来,类似于虚幻引擎5(EPIC公司公布的第五代游戏引擎Unreal Engine 5)这样的数字孪生模型可能会更合适。比如在公园里拍视频,一万个游客可能会制作出一万个视频,文件非常大。但如果将公园制作成虚幻引擎模型,大家就可以共用一个模型来制作自己的故事,就跟电影《西部世界》里呈现的那样,每个人都能在同一个场景里活出不同的故事。游客可以通过各种不同的虚拟摄像机机位去体验,这样就大幅降低了制作成本。视频与虚幻引擎相比,大致相当于Hadoop(一种分布式系统基础架构)跟TiDB(一种开源分布式关系型数据库)或OceanBase(一种企业级分布式关系数据库)的对比,结构化的数据更容易做分析和处理。

  今天,游戏引擎打造的视频已经可以以假乱真了。2021年8月,英伟达在计算机图形学顶级会议SIGGRAPH 2021上通过一部纪录片自曝:在2021年4月英伟达发布会的视频中,有14秒的时间,“黄仁勋”不是真人,而是英伟达利用Omniverse打造的数字人。

  当技术进一步提升,成本进一步下降,在虚拟场景中制造视频的成本将会低于人类拍摄并制作视频的成本。那时,记录人的一生其实也不需要那么大的数据量,因为大部分背景都是虚拟平台上公共的场景。如果能在100毫秒内,把记录一个人每时每刻行为的数据传输到云端并处理完毕,那么元宇宙的爆发点也就来临了。(沈旸,神州数码集团副总裁、首席信息官)