逐浪AIGC⑤丨大模型狂飙

信息来源:21世纪经济报道 发布日期:2023-03-16 主题标签:AIGCAIChatGPTGPT-4OpenAI逐浪

编者按:1956年,人工智能(AI,Artificial Intelligence)的概念首次提出,迄今已逾六十载。60年来,AI历经了从爆发到寒冬、再到野蛮生长的历程,伴随着人机交互、机器学习等技术的提升,AI成为了技术时代的新趋势。

2022年,AI行业再度迎来新的节点,人工智能生成内容(AIGC,AI Generated Content)后来居上,以超出人们预期的速度成为科技革命历史上的重大事件。无论是“AI画师”DALL-E2,还是“万能陪聊”对话机器人ChatGPT,生成式AI正在迅速催生全新的科技革命系统、格局与生态。

时针转至2023年,由AIGC引发的热度不减反增,而全新的智能创作时代在带来深刻生产力变革的同时,也将进而改变人类的思想演进模式。就此,21世纪经济报道数字经济课题组策划了“逐浪AIGC”系列报道,多维解读AIGC带来的技术可能和商业图景。

21世纪经济报道记者倪雨晴 深圳报道

试想一下,一个月薪几千元的普通客服正给海外用户回邮件,他到处搜索外文来辅助回复工作,写出来的东西一看就会被用户认为是非母语的工作人员。

在2023年,当他面向ChatGPT后会发生怎样的变化?基础邮件文本可以直接生成,写邮件的效率或直接提高90%,而强大的AI能力甚至能做到邮件毫无外国人的痕迹。

虽然这个“AI助理”并不完美,但是毫无疑问ChatGPT提供了全新的生产力。面对ChatGPT,人们经历了惊艳、狂热、剖析、期待、质疑等一系列反应。正当舆论开始降温之时,OpenAI在3月15日直接抛出了GPT-4。

ChatGPT是基于GPT-3.5(Generative Pre-trained Transformer 3.5)自然语言(NLP)大模型开发而成。相比于上一代,GPT-4已经迭代为一个多模态大模型(Multimodal Model),不仅将文字输入限制提升至2.5万字,还可以支持图像输入,并且回答的准确性更高,也能生成歌词和创意文本。

目前在ChatGPT可以选取GPT-4模式,同时OpenAI也开放了GPT-4的API,新的浪潮继续涌动。在这一AI新物种迅猛进化的背后,AI大模型正在狂飙,这一次,GPT真正横扫了人工智能是人工智障的嘲讽。

迄今为止,我们无法想象ChatGPT的上限在哪里,它似乎只想花上百亿美金告诉我们,人工智能真的存在。而在任何尺度上,GPT及其配套的技术方向,将史无前例地改变着人类世界。

大模型崛起

2015年12月,硅谷大佬们启动了OpenAI的引擎,GPT计划才开始酝酿。彼时,谷歌已经在前一年收购了DeepMind,一年后,DeepMind团队研发的AlphaGo即将大放异彩,一场人机围棋大战直接将全球大众卷入AI世界。

而谷歌带来的AI高潮还未停止,在2017年,谷歌发布了Transformer大模型,成为了AI大模型的新分水岭。而谷歌也未预料到,Transformer却成为了OpenAI将ChatGPT培养为“变形金刚”的模型基础。

据悉,Transformer模型原本并不是专用于解决自然语言问题,而是解决机器翻译问题,但是大家发现用它做语言模型效果非常好,现在人工智能的各种问题都由它来解决,成为了基础模型。

角逐的种子已经埋下,AI的新战场悄然来临。2018年,OpenAI的GPT-1和谷歌的BERT共同出世,他们均使用了Transformer模型的架构,成为最具代表性的预训练语言模型。

看似旗鼓相当的起点,却通向了不同路径。2020年,OpenAI从GPT-3开始抢跑,率先进化为大型生成式预训练语言模型(LLM)的顶级玩家,并在2022年以ChatGPT一战封神。

预训练语言模型(LLM).png


(图片来源:华为语音语义首席科学家刘群《ChatGPT技术分析》报告)

华为语音语义首席科学家刘群在《ChatGPT技术分析》报告中总结道,从语言模型的发展来看,演进的过程中依次出现了n元语言模型、神经网络语言模型、循环神经网络语言模型、Transformer语言模型、预训练语言模型(以ELMo、BERT、GPT为代表)、大型生成式预训练语言模型(GPT-3、GPT-4)。

在大模型的演变过程中,国内也涌现出多个具有代表性的AI大模型。比如,在2021年,华为发布了首个中文千亿级的盘古模型,中科院自动化所提出首个三模态的紫东太初模型。

百度在2022年发布10个产业级知识增强的ERNIE模型,全面涵盖基础大模型、任务大模型、行业大模型。在2023年3月16日,百度正式推出文心一言,对标ChatGPT。据介绍,文心一言是新一代知识增强大语言模型,是在ERNIE及PLATO系列模型的基础上研发的。

眼下,在大模型舞台上,GPT正在开启新范式。一位AI资深从业者向21世纪经济报道记者表示,按照一般的AI的构建思路,大家往往会专注于一项应用。即一般的天才发明家会避免去创造一个全能的智能机器人,他们会把具体功能拆分成洗衣机、冰箱、微波炉,而具体功能解决具体场景需要不同的技术类型,因此一些厂商会避免去解决“太大”的问题。

同时,也有厂商会避免解决“太小”的问题,他们想创建全知全能的AI,想一起解决自然语言、自动驾驶、图像识别等各种通用的问题。以谷歌为例,它就是典型的在自然语言领域想的“太小”,在自动驾驶领域想的“太大”。

他认为,ChatGPT这款产品恰到好处,解决了“既不太大、又不太小”的问题,并不迁就于普通的商用场景,不急于解决具体的商用问题,但很明显它也不想只解决冰箱、微波炉式的问题,又有壮志雄心。“历史上所有的自然语言厂商,目前都没有做过如此庞大的自然语言应用。GPT是有多个发展语言方向,但是封装出了ChatGPT这个老少咸宜、妇孺皆可的自然语言用户体验的场景。”

可以看到,在人工智能领域,过于冒进和缺乏冒险精神都是非常危险的,AI就是人类智慧最前沿的角斗场。

ChatGPT棋高一着

伦敦大学学院计算机系教授、上海数字大脑研究院联合创始人兼院长汪军向21世纪经济报道记者表示,ChatGPT带来的技术革新,不亚于当时Google检索互联网带来的跃进,GPT家族与BERT模型本质上都基于Transformer大模型技术。

为何GPT能够抢先一步?汪军告诉记者:“Open AI比较早就专注于大模型训练,从GPT开始就发展得比较全面,其中一项技术是上下文学习(In-context Learning),GPT做的比较领先。”

根据相关论文,上下文学习的核心思路通过类比来学习。首先,它需要一些示例来形成一个演示上下文,这些示例通常是用自然语言模板编写的。然后将查询的问题和上下文演示连接在一起,形成带有提示的输入,并将其输入到语言模型中进行预测。

这意味着,大模型的学习方法更加接近人类,比如我们要理解互联网新词或者微信表情包的含义,通常会把它出现的上下文场景学一遍,比直接给概念更好理解。现在,大模型的训练,也可以通过学习上下文场景的方式来习得“相似的逻辑模式”,进行任务的演算。

GPT则将这技术运用的炉火纯青,汪军进一步解析道:“GPT-3可以打破任务的界限,本质上任何NLP(自然语言)的任务都可以用一段话,即一段上下文来描述,语言模型就可以根据不同的上下文场景生成不同的答案,然后进行整合。所以哪怕只是给ChatGPT一点点提示,然后给它上下文提示信息,一个大模型理论上就可以解决各种各样的机器学习问题。”

在他看来,这是对机器学习的重大变革,“以前我们根据任务来训练,现在不需要了,只要把问题用语言文字描述作为提示给到大模型,大模型根据提示就可以适用到特定问题给到结果。”

此外,人类反馈强化学习(RLHF,Reinforcement Learning from Human Feedback)也多次被专家们提及,因为GPT3.5与GPT-3的主要区别在于,新加入了人类反馈强化学习的训练方法。据了解,这一方法包括三个阶段,分别是监督策略模型、训练回报模型(需要人工根据结果排序为结果打分)、强化学习来增强输出结果。

“所谓的人类反馈强化学习就是通过人类的判断,让大模型找到最好的答案,形成一个模型,然后在最后一轮训练的时候,用强化学习来增强结果。即强化学习会通过之前训练好的模型来优化,从而和人的判断去对齐,”汪军指出,“但是这是很成熟的一套训练,属于比较经典的机器学习手段,并非GPT专有,而GPT做的更出色,一方面它有非常大的比较干净的数据,另一方面就是算力的问题,它的模型大到只有大厂有资源能干这件事情。”

GPT-4进化 OpenAI造梦

归纳来看,上述提到的技术点,涉及了AI的训练方法、输入和输出等多方面能力的优化。当然,基于GPT-3.5的ChatGPT仍存在缺点和瓶颈,包括信息不够准确、无法判定真实性、数学能力弱等等,但是GPT-4的现身又让大家看到了技术的迭代演进的方向。

其中,备受关注的一个能力是多模态,即GPT-4不仅可以阅读文字,还可以看懂图片信息,不少业内人士都曾指出多模态是大模型未来发展趋势之一,而OpenAI已经继续迈进。根据OpenAI的演示,当GPT-4看到一张网页的设计图时,它可以根据你的指令,直接写出网页代码。

一方面,“生成式”AI的力量再次展现。汪军谈道:“GPT本质上是生成型模型,现在输入人类语言后,输出的可以是代码、可以是图像、可以是表格、可以文本回答,未来也可能是生成其他可执行的东西,比如自动生成游戏,自动推荐产品,可以是各种各样的形式。所以人机交互完全改变,不是以前基于关键字的搜索,而是基于自然语言的全新交互。”

另一方面,看懂图片也有着重要意义。前述AI资深从业者告诉记者,GPT-4学习读懂各式各样信息的背后,意味着GPT正在把所有的信息归纳到统一的尺度上去处理。自然语言只是信息的一种体现形式,图片、视频等也是信息的载体,GPT则在将这些多样化的信息进行统一地阅读和推理。

海银资本创始合伙人王煜全就在一篇文章中评论道,多模态技术底层是“一切数据Token化”的变革,此处的Token是指AI大模型的数据单位,“一切数据Token化”指的是AI大模型加持下,文字、图片、声音所有数据都能被统一处理的新变革。

他表示:“人类社会中80%以上的数据都是图片、音频、视频等等非结构化的数据,这些数据不像文字、字符一样能被计算机处理,如何挖掘这些数据背后的价值成为大数据变革的一大方向。当时我预测AI会是这轮变革中重要的颠覆力量,如今OpenAI用实际行动证明了这个趋势正在到来。”

而AI大模型已经能使用多种类型的数据训练,王煜全举例道,OpenAI的AI绘画软件Dall-E就是基于GPT-3,用图片数据训练出来,一张图片最长会被转化为1024个Token。在他看来,GPT-4再前进了一步,这次体现出对图片信息更强的理解能力,提供了图片数据处理的新方案,这背后潜在的价值难以估量。

随着GPT带来的技术变革,业内也不禁想象,ChatGPT式的“AI助手”是否会成为未来互联网的唯一入口,甚至成为超越手机的入口,AI软硬件也将因它而重新定义。而令人震惊的是,OpenAI可不仅仅拥有技术,一位业内人士向记者表示:“OpenAI在技术之外,还有高超的传播技巧、融资能力,商业行销和技术创新组合出了化学反应。ChatGPT这是一款用户越用越强大的惊人产品,越多人的’调教’会让系统更加智能,用户的行为成为产品核心资产,堪称OpenAI在用用户融资。”

或者说,相比GPT的人工智能,OpenAI能够组织起这一系列的研发,体现了人类更高的智能。也很难想象,在拥有商业潜力却长年非盈利的状态下,一群高智力的人们聚集在一处,瞄着AI疯狂造梦,最终跑向的终点会是何处。

(作者:倪雨晴 编辑:林曦)