GPT-4技术报告(附中、英文PDF下载,含GPT-4 System Card_中文)

GPT-4 Technical Report

信息来源:吾爱元宇宙 发布日期:2023-03-26 主题标签:GPT-4报告人工智能

摘要

我们向大家介绍了 GPT-4,这是一个大规模的多模态模型,它能接受图像和文本输入,并产生文本输出。虽然在很多现实场景中,GPT-4 的能力不如人类,但在许多专业和学术评测中,它展示了与人类相媲美的表现,比如在模拟的律师资格考试中,得分排名前 10%。GPT-4 是一个基于 Transformer 的预训练模型,用于预测文档中的下一个标记。训练后的对齐过程提高了事实性和符合期望行为的表现。这个项目的核心部分是开发跨各种规模表现稳定的基础设施和优化方法。这使我们能够根据计算能力不超过 GPT-4 的 1/1000 的模型,准确预测 GPT-4 某些方 面的性能。

1 引言

这份技术报告介绍了 GPT-4,一种能处理图像和文本输入并生成文本输出的大型多模态模型。这类模型非常重要,因为它们有潜力被广泛应用于对话系统、文本摘要和机器翻译等领域。近年来,它们取得了很大的关注和进展。

开发这类模型的一个主要目标是提高它们理解和生成自然语言文本的能力,尤其是在更复杂和微妙的场景中。为了测试 GPT-4 在这类场景中的能力,我们对其进行了一系列原本为人类设计的考试评估。在这些评估中,GPT-4 表现相当出色,通常超过了绝大多数人类考生。例如,在模拟律师资格考试中,GPT-4 的成绩位于考生前 10%,而 GPT-3.5 的成绩位于考生后 10%。

在一系列传统的 NLP 基准测试中,GPT-4 的表现超过了之前的大型语 言模型和大多数最先进的系统(这些系统通常具有针对基准测试的训练或手工设计)。在 MMLU 基准测试中,一个涵盖 57 个主题的 英语多项选择题套件,GPT-4 不仅在英语方面大幅度超过现有模型,而且在其他语言方面也表现出强大的性能。在 MMLU 的翻译版本中, GPT-4 在 24 种语言中的26 种考虑中超越了英语的最先进的水平。我们将在后面的部分详细讨论这些模型能力的结果,以及模型安全性的改进和结果。

本报告还讨论了项目的一个关键挑战:开发在广泛规模范围内表现稳定的深度学习基础设施和优化方法。这使我们能够对 GPT-4 的预期性能 进行预测(基于类似方式训练的小规模运行),并通过最终运行进行测试,以提高我们对训练的信心。

尽管具有这些能力,但 GPT-4 与早期的 GPT 模型还是具有类似的局限性:它不是完全可靠的(例如,可能会出现“幻觉”现象),上下文窗口有限,且不能从经验中学习。在使用 GPT-4 的输出 时,特别是在可靠性很重要的场景中,应谨慎对待。

GPT-4 的能力和局限性带来了重大且新颖的安全挑战,我们认为,鉴于其潜在的社会影响,仔细研究这些挑战是一个重要的研究领域。本报告包括一份详细的系统卡片(附录后),描述了我们预见的一些风险,如偏见、虚假信息、过度依赖、隐私、网络安全、扩散等。报告还描述了我们为减轻 GPT-4 部署可能带来的潜在危害所采取的干预措施,包括 与领域专家进行对抗性测试和模型辅助安全流程。

2 技术报告的范围和局限性

3 可预测的扩展性

4 能力评估

5 限制

6 风险与缓解

7 结论

尾注:翻译内容基于 GPT-4 技术报告翻译 by GPT4 and Human Feedback - 知乎 (zhihu.com),感谢译者!本人结合英文原文,重新布局了图片、表格和注释内容,并修订了部分翻译较为生硬的语句,希 望能得到更多热心人士的完善建议。

——归零者 吾爱元宇宙-开启您的第二人生 (5imetaverse.com)