Hey, miles

莫等闲,白了少年头q

0%

44-LLM

GPT-4 Technical Report Translation

OpenAI (2023)

Abstract

我们报道了GPT-4的发展,一个大尺度(large-scale),多模态,可以接受图像、文本输入,生成文本输出。GPT-4虽然在很多实际场景中的表现不如人类,但是GPT-4在多种包括专业和学术基准测试上表现出了人类水平的能力,包括在所有测试者中以前10%的成绩通过美国律师资格考试(bar exam)。GPT-4是一个Transformer-based的模型,通过预训练来预测文件中的下一个token。post-tr1aining alignment流程提升了factuality以及adherence的性能到想要的表现。这个项目的核心组件是开发能够在很大的范围内可预测地运行的infrastructure以及优化方法。这允许我们使用小于GPT-4$ \frac{1}{1000th} $计算量的方式准确地预测GPT-4一些方面的性能。

1. Introduction

这份技术报告展现了GPT-4,一个庞大的多模态模型,能够处理图像和文本输入并产生文本输出。这样的模型是重要的研究方向,因为他们有在广范围应用领域上使用的潜力,例如dialogue systems, text summarization, machine translation。正因如此,他们在近些年已经收获了大量的兴趣和进展[1-34]。

开发这样子的模型的其中一个主要目标就是去提升他们的理解和生成自然语言文本的能力,尤其是在更复杂和微妙的(nuanced)场景。为了测试它在这样的场景的性能,GPT-4在各种各样的原本为人类设计的考试上进行测试。在这些测试中,它表现的非常不错,并且经常得分超过绝大多数的人类测试参加者。比如,在一个模拟的律师资格考试,GPT-4的得分在所有测试参加者的前10%。这差异于GPT-3.5,后者的得分在垫底10%中。

在一系列(on a suite of)传统NLP基准中,GPT-4胜过了之前的LLMs(Large Language Models)以及莫部分的SOTA系统(这些系统经常是在特定基准上训练或者是人工制作的(hand-engineering))。MMLU是一个英文的覆盖了57个项目的一系列多选问题的基准,在MMLU上,GPT-4不仅仅在英文上的表现比已有的方法超过了相当大的(considerable)距离,而且在其他的语言上表现除了强劲的性能。在MMLU的翻译变种上,GPT-4在24/26中考虑的语言中超过了英语SOTA。(GPT-4 surpasses the English-language state-of-the-art in 24 of 26 languages considered)。我们讨论了这些模型的性能结果,也讨论了模型安全性的提升与结果,在后面的章节有更多细节。

这篇报道同样讨论了项目的一个关键挑战开发在广尺度范围内能够可预测地工作的深度学习infrastructure以及优化方法。这使我们能够 预测 GPT-4 的预期性能(基于以类似方式训练的小型运行)。与最终运行进行测试,以增强我们对训练的信心(This allowed us to make predictions about the expected performance of GPT-4 (based on small runs trained in similar ways) that were tested against the final run to increase confidence in our training)。

忽略性能不计,GPT-4和早期的GPT系列模型有相似的限制[1, 37, 38]:它并不是完全可靠的(例如它有幻觉问题(hallucinations)),它有有限的上下文窗口,并且不会从经验中学习。在使用GPT-4的输出时需要谨慎,尤其是在可靠性很重要的场景。

GPT-4的能力和性能限制创造出了很大的、新颖的安全挑战,我们相信由于GPT-4对社会的影响有潜力,对这些挑战进行仔细的研究是十分必要的。这篇报道包含一个extensive system card(在附录之后),描述了我们预测的一些风险,围绕着偏见(bias),虚假信息(disinformation),过度依赖(over-reliance),隐私(privacy),网络安全(cybersecurity),扩散(proliferation)等。system card同样描述了我们做的一些可以减轻部署GPT-4潜在威胁的一些干预措施,包括与领域专家(domain experts)进行对抗测试,以及模型辅助的安全管道(model-assisted safety pipeline)。

2. 这篇技术报道的范围和限制

这篇报道聚焦于GPT-4的能力、局限和安全性。GPT-4是一个Transformer类型的模型,使用了可公开获取的数据集(例如互联网数据)以及第三方手授权的数据,使用预测文档中的下一个token的方式进行预训练。模型随后使用人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)调优。鉴于GPT-4等大模型的竞争态势和安全影响,这篇报道并不会过多地包含架构(包含模型大小),硬件,训练计算,数据集构建,训练方法,或相似的内容。

我们致力于(We are committed to)独立地审视我们的技术,并且在随后的系统卡(system card)中分享了这方面的一些初步的步骤和想法2。我们计划向更多的第三方提供进一步的技术细节,他们可以就如何权衡上述竞争和安全考虑因素与进一步透明的科学价值向我们提供建议(We plan to make further technical details available to additional third parties who can advise us on how to weigh the competitive and safety considerations above against the scientific value of further transparency)。

3. 可预测地Scaling

GPT-4项目的一个主要聚焦的地方就是构建一个大小可估计的深度学习stack。主要的原因是对于像GPT-4这样的大型训练,进一步进行特定模型的训练是不可行的。为了解决这个问题,**我们开发出了在不同尺度上都有非常可预测的行为的基础设施(infrastructure)以及优化方法。**这些进步让我们可以通过使用减小1000~10000倍的计算量,训练小一点的模型来可靠地预测GPT-4一些方面的性能。

3.1 Loss预测

合适训练的LLM的最终loss,被认为可以通过训练模型过程中所使用计算量的幂次规律来逼近[41, 42, 2, 14, 15]。

为了验证我们优化基础架构的scalability,我们在我们的内部代码库(不是训练集合的一部分)上预测GPT-4的最终loss,通过对使用相同方法训练模型,但是比GPT-4减小最多10000倍训练量的模型,拟合一个有不可复现loss形式(irreducible loss term)(as in Henighan et al. [15])的规则:
$$
L© = aC^{b}+c
$$
这个预测在开始执行后很快就能被得出,而未使用任何暂时的结果。拟合的scaling law以高精度预测了GPT-4的最终loss(figure 1)

3.2 Scaling of Capabilities on HumanEval

在训练前对模型的性能有些概念可以更好地在对齐(alignment)、安全(safety)、以及部署(deployment)上做决策。出了预测模型训练的最终loss,我们开发了预测更多可读的性能指标的方法。一个指标是在HumanEval数据集[43]上的通过率,该数据集测量了合成不同复杂度Python函数的能力。我们成功地使用少了最多1000倍训练量的模型预测HumanEval数据集子集的通过率 (图2) 。

对于HumanEval的一个问题,性能有时会随着尺度变大而变差。忽略这些挑战,我们发现了一个大致的幂次关系规律:
$$
E_P[log(pass_rate©)] = \alpha * C^{-k}
$$

译者注:这里的$C$原文未解释,结合上下文,应当是Compute计算量。

这里$$k$$以及$$\alpha$$是正的常数,$$P$$是数据集所有问题的子集。我们假设这个关系对于这个数据中的所有问题都成立。实际上,非常低的通过率是非常困难或者不可能(用于)估计的,所以我们限制问题$$P$$以及所有模型$$M$$,使得在有大采样预算的情况下,每个问题都能被每个模型解决至少一次(In practice, very low pass rates are difficult or impossible to estimate, so we restrict to problems P and models M such that given some large sample budget, every problem is solved at least once by every model)。

Figure1

Figure 1. GPT-4以及更小模型的性能。所使用的指标是在我们内部代码库导出数据集的最终训练损失。这是一个由代码tokens组成的方便的大数据集,该数据集不在模型的训练集中。我们选择看损失是因为它在不同的训练计算量下比其他的参数有更低噪音。虚线使用一个幂次规律拟合了小一些的模型(出了GPT-4);这个虚线准确地预测了GPT-4的最终损失。x轴是归一化的训练量,因此GPT-4的训练量是1。

Figure2

Figure 2. GPT4以及更小模型的性能。这个参数是HumanEval数据集子集的平均log通过率。虚线使用一个幂次规律拟合了小一些的模型(出了GPT-4);这个虚线准确地预测了GPT-4的性能。x轴是归一化的训练量,因此GPT-4的训练量是1。

我们在训练结束之前记录了(registered)对GPT-4关于HumanEval性能的性能预测,仅使用训练前可用的信息。除了HumanEval的15个最难的问题,其他问题根据在更小模型的表现分到了6组难度。在第三简单的结果在图2上展示出来,表现了其预测对于这部分HumanEval问题是十分准确的,我们可以在结果上对几个更小模型准确估计$$log(pass_rate)$$。在其他5组问题上的预测表现的几乎相似,主要的意外是GPT-4在最简单的一组上表现的低于我们的预期。

特定的性能依然难以预测。比如,Inverse Scaling Prizing [44]提出了几个任务会随着模型尺度而函数关系地下降。与Wei等人[45]在近期的结果相似。我们发现GPT-4反转了这一趋势,通过这些任务中的Hindsight Neglect[46]展示在图3中。

Figure3

Figure 3. GPT-4以及稍小模型在Hindsight Neglect任务上的表现。y轴展示了准确度,越高越好。ada,babbage以及curie指通过OPAI API提供的模型[47]

我们相信准确预测未来的性能对于安全性也是重要的。展望未来,我们计划完善这些方法,并在开始大型模型训练之前,对各种能力的性能预测进行注册。我们希望这成为该领域的共同目标。

4. 性能

我们在多个基准上测试了GPT-4的性能,包括原本为人类设计的模拟考试4。我们并没有特意为这些考试进行训练。在模型训练过程中,只有一小部分问题出现过;对于每个考试,我们运行了一个移除了这些问题的变种,并报告了二者之间更低的分数。我们相信结果是有代表性的。更多关于contamination(方法论以及逐考试的统计数据)在附录中列出。

考试材料从公开材料中获取。考试问题包含了多选以及自由回答的问题;我们为每种格式设计了独立的提示词(prompt),并且对于需要图片的问题,图片也会被包含在输入中。评估设置是根据一组验证考试的成绩设计的,我们报告的是保留的测试考试的最终结果。最终分数是通过使用每个考试的公开规则,结合多选以及自由回答题目分数得到的。我们估计并报告了每个最终分数所在的百分比。附录A中列出了更多关于考试验证方法论的详细内容。

Exam GPT-4 GPT-4 (no vision) GPT-3.5
Uniform Bar Exam (MBE + MEE + MPT)
统一律师考试
298/400(~90th) 298/400(~90th) 213/400(~10th)
LSAT
法学院入学考试
163(~88th) 161(~83rd) 149(~40th)
SAT Evidence-Based Reading & Writing
SAT证据性阅读和写作
710/800(~93rd) 710/800(~93rd) 670/800(~87th)
SAT Math
SAT数学
700/800(~89th) 690/800(~89th) 590/800(~70th)
Graduate Record Examination (GRE) Quantitative
美国研究生入学考试Quantitative
173/170(~80th) 157/170(~62nd) 147/170(~25th)
Graduate Record Examination (GRE) Verbal
美国研究生入学考试Verbal
169/170(~99th) 165/170(~96th) 154/170(~63rd)
Graduate Record Examination (GRE) Writing
美国研究生入学考试Writing
4/6(~54th) 4/6(~54th) 4/6(~54th)
USABO Semifinal Exam 2020
美国生物奥林匹克活动半决赛考试 2020
87/150(99th-100th) 87/150(99th-100th) 43/150(31st-33rd)
USNCO Local Section Exam 2022
美国化学奥林匹克竞赛地方部分考试2022
36/60 38/60 24/60
Medical Knowledge Self-Assessment Program
医学知识自我评估计划
75% 75% 53%
Codeforces Rating
Codeforces分数
392(below 5th) 392(below 5th) 260(below 5th)
AP Art History
AP(Advanced Placement, 大学预修课程)艺术史
5(86th - 100th) 5(86th - 100th) 5(86th - 100th)
AP Biology
AP生物学
5(86th - 100th) 5(86th - 100th) 4(62nd - 85th)
AP Calculus BC
AP微积分BC考试
4(43rd - 59th) 4(43rd - 59th) 1(0th - 7th)
AP Chemistry
AP化学
4(71st - 88th) 4(71st - 88th) 2(22nd - 46th)
AP English Language and Composition
AP 英语语言与写作
2(14th - 44th) 2(14th - 44th) 2(14th - 44th)
AP English Literature and Composition
AP 英语文学与写作
2(8th - 22nd) 2(8th - 22nd) 2(8th - 22nd)
AP Environmental Science
AP环境科学
5(91st - 100th) 5(91st - 100th) 5(91st - 100th)
AP Macroeconomics
AP宏观经济学
5(84th - 100th) 5(84th - 100th) 5(84th - 100th)
AP Microeconomics
AP微观经济学
5(82nd - 100th) 4(60th - 82nd) 4(60th - 82nd)
AP Physics 2
AP物理学2
4(66th - 84th) 4(66th - 84th) 3(30th - 66th)
AP Psychology
AP心理学
5(83rd - 100th) 5(83rd - 100th) 5(83rd - 100th)
AP Statistics
AP统计学
5(85th - 100th) 5(85th - 100th) 3(40th - 63th)
AP US Government
AP美国政府
5(88th - 100th) 5(88th - 100th) 4(77th - 88th)
AP US History
AP美国历史
5(89th - 100th) 4(74th - 89th) 4(74th - 89th)
AP World History
AP世界历史
4(65th - 87th) 4(65th - 87th) 4(65th - 87th)
AMC 103
美国高中数学竞赛103
30/150(6th - 12th) 36/150(10th - 19th) 36/150(10th - 19th)
AMC 123
美国高中数学竞赛123
60/150(45th - 66th) 48/150(19th-40th) 30/150(4th - 8th)
Introductory Sommelier(theory knowledge)
侍酒师入门(理论知识)
92% 92% 80%
Certified Sommelier
认证侍酒师
86% 86% 58%
Advanced Sommelier
高级侍酒师
77% 77% 46%
Leetcode(easy)
力扣(简单)
31/41 31/41 12/41
Leetcode(medium)
力扣(中等)
21/80 21/80 8/80
Leetcode(hard)
力扣(困难)
3/45 3/45 0/45

Table 1. GPT在学术以及专业考试上的性能。在每个例子中,我们模拟了真是考试中的条件和打分方式。我们根据特定考试的评分标准报告了GPT-4的最总得分,达到GPT-4的得分的测试者百分比也得到报告。

Figure 4

Figure 4. GPT-4在学术和专业考试中的性能。在每个例子中,我们模拟了真是考试中的条件和打分方式。各项考试根据GPT-3.5的表现由低到高排序。GPT-4的表现在大多出测试的考试中都比GPT-3.5好。保守起见,我们报告了百分比区间的下界,但是这样做在有很宽评分范围的AP考试中有缺陷。比如尽管GPT-4达到了AP生物学的最高分数(5 / 5),这个得分只是以第85个百分比在途中绘制,因为有15%的测试参与者达到了这一分数。

GPT-4在这些专业和学术考试的绝大多数中展现出了人类水平的表现。值得注意的是,GPT-4用所有参试者前10%的分数通过了模拟版本的统一律师考试(Table1, Figure 4)。

模型在考试上的能力似乎主要源于(stem from)预训练阶段,而且并没有被RLHF(Reinforcement Learning from Human Feedback, 人类反馈的强化学习)显著地影响。在多选问题中,GPT-4基本模型和RLHF模型在所有我们测试的考试中平均表现一样地好( 看附录B )。

我们同样在勇于验证语言模型的传统基准上验证了基于预训练的GPT-4模型。对于每个我们报道的基准,我们对测试数据是否在训练集中出现的情况跑了contamination检查( 附录D中列出了每个基准的contamination详细 )。5在验证GPT-4时,我们对所有基准使用小样本提示( few-shot prompting )[1]。6

5在contamination检查中,我们发现部分BIG-bench[48]的数据被无意间混入了训练集,因此我们在报道中排出了这个结果

6对于GSM-8K,我们在GPT-4的预训练集中混合了部分它的训练集(详细见附录E)。我们在验证时使用了chain-of-thought提示词[11]。

GPT-4的性能大大优于现有语言模型,同样由于之前的SOTA系统,这些系统通常是对某个基准设计的或者有额外的训练流程(Table 2)。

GPT-4
Evaluated few-shot
GPT-3.5
Evaluated few-shot
LM SOTA
Best external LM evaluated few-shot
SOTA
Best external model(incl. benchmark-specific tuning)
MMLU [49]
Multiple-choice question in 57 subjects (professional & academic)
86.4%
5-shot
70%
5-shot
70.7%
5-shot
U-PaLM [50]
75.2%
5-shot Flan-PaLM [51]
HellaSwag [52]
Commonsense reasoning around everyday events
95.3%
10-shot
85.5%
10-shot
84.2%
LLaMA (validation set) [28]
85.6
ALUM [53]
AI2 Reasoning Challenge (ARC) [54]
Grade-school multiple choice science questions. Challenge-set
96.3%
25-shot
85.2%
25-shot
85.2%
8-shot PaLM [55]
86.5%
ST-MOE [18]
WinoGrande [56]
CommonSense reasoning around pronoun resolution
87.5%
5-shot
81.6%
5-shot
85.1%
5-shot PaLM [3]
85.1%
5-shot PaLM [3]
HumanEval [43]
Python coding tasks
67.0%
0-shot
48.1%
0-shot
26.2%
0-shot PaLM [3]
65.8%
CodeT + GPT-3.5 [57]
DROP [58] (F1 score)
Reading comprehension & arithmetic
80.9
3-shot
64.1
3-shot
70.8
1-shot PaLM [3]
88.4
QDGAT [59]
GSM-8K [60]
Grade-school mathematics questions
92.0%*
5-shot
chain-of-thought
57.1%
5-shot
58.8%
8-shot Minerva [61]
87.3%
Chinchilla + SFT+ORM-RL, ORM reranking [62]

Table 2. GPT在学术基准集上的表现。我们将GPT-4与最好的SOTA(在特定数据集上训练)以及few-shot验证的SOTA的LM。GPT-4在全部的基准上表现优于现存的LM,并且在除了DROP的基准上,打败了用特定数据集训练的SOTA方法。我们对每个任务都报告了GPT-4的表现以及勇于验证的few-shot方法。对于GSM-8K,我们在GPT-4预训练集中混合了其训练集的一部分(见附录E),并且我们在验证时使用了chain-of-thought prompting [11]。对于多选题,我们对模型展示了所有的选项(ABCD),让它从选项中选择字母,与人类回答这样的问题的方法相似。

很多现存的ML基准都是用英语写的。为了获取GPT-4在其他语言上的表现的初级认识,我们翻译了MMLU基准[35, 36]——一系列覆盖了57个种类的多选题,使用Azure翻译将其翻译到了各种语言上(见附录F的实例翻译以及提示词)。我们发现GPT-4在大多数我们测试的语言上表现优于GPT-3.5以及现存的语言模型(Chinchilla [2] 以及 PaLM [3])的英语得分,包括像Latvian, Welsh, Swahili这样的低资源语言(Figure 5)。

GPT-4在跟随用户意图能力上比之前的模型有极大的提升[63]。在一个包含5214个提示词提交给ChatGPT [64]以及OpenAI API的场景下,GPT-4生成的回答比GPT-3.5的在70.2%的提示词上都更受欢迎。

我们正在开源OpenAI Evals8,是我们用于创建和运行基准的框架,用来验证像GPT-4的模型,同时逐样本地检查性能。Evals对现存的基准兼容,并且可以用于跟踪部署后的模型的性能。我们计划随时间增加这些基准的多样性,来展现更宽的失败模式以及更难的任务集。

Figure 5

Figure 5. 在各种各样的语言上,对于GPT-4的性能与之前MMLU的英语模型。GPT-4在绝大多数测试的语言上表现优于现存语言模型[2, 3]的英文性能,包括像Latvian, Welsh, Swahili这样的低资源语言。

4.1 视觉输入

GPT-4能够接受图像和文字,与纯文本设置类似,用户可指定任何视觉或语言任务。具体地说,模型根据包含图像文本随意交错的输入生成文本输出。在包含文本、照片、图标或屏幕截图等一系列领域中,GPT-4展现出了和它在仅文本输入场景下相似的性能。GPT-4的一个视觉输入的例子在Table 3中展示。为语言模型设计的标准测试技术(例如few-shot prompting, chain-of-thought等)在使用图像和文本输入时是适用的(见附录G)。

对GPT-4使用一小部分学术视觉基准评估的结果在blog[65]中展示出来。我们计划在紧接着的工作中展现GPT-4更多的视觉能力。

Table 3

Table 3. 展示GPT-4视觉输入能力的例子。提示词中包含了一个关于有多面板的图像的问题,GPT能够回答这个问题

5. 限制

不看能力,GPT-4有着和早前GPT模型相似的限制。最重要的是,它依然不是完全可信的(它“混淆”事实并错误推理)。在使用模型输出时需要非常小心,尤其是在高风险(high-stakes)情况下,需要有特定的流程(例如人工检查,提供更多的上下文,或者完全避免高风险的使用)就能够匹配特定应用的需要。我们的System Card提供详细信息。

译者注:幻觉(hallucinates)现象。在语言模型的背景下,幻觉指的是一本正经的胡说八道:看似流畅自然的表述,实则不符合事实或者是错误的。分为内在幻觉和外在幻觉。

相比于GPT-3.5,GPT-4显著减少了幻觉现象(GPT-3.5也在通过连续地迭代不断优化自身)。在我们的内部对抗事实性评估中,GPT-4的得分比我们内部最新的GPT-3.5得分高出19个百分点(Figure 6)。

Figure 6

Figure 6. GPT-4在9个内部对抗事实性评估中的表现。y轴展示了精确度,越高越好。1.0的精准度意味着在该评估中,模型的回答符合人类的理想回答。我们将GPT-4与3个较早版本的基于GPT-3.5的ChatGPT [64]对比;GPT-4比最新的GPT-3.5模型领先了19个百分点,在所有话题上都有显著提升。

GPT-4在像TruthfulQA[66]这样的基准上取得了进步,这类基准检验了模型从所有选择中区别出一个正确回答(Figure 7)。这些问题搭配了一些事实上不正确但是统计上很具有吸引力的回答。在这项任务上,GPT-4基本模型仅仅比GPT-3.59提升一点。Table 4展现了一个正确的和一个错误的回答。GPT-4对常见说法(common sayings)表现抗拒(you can’t teach an old dog new tricks),然而它仍然遗漏了微妙的细节(Elvis Presley不是演员的儿子,因此Perkins时正确答案)。

GPT-4基本确实了它主要预训练数据截止时间后发生事件的知识,其截止时间为2021年9月10,GPT-4也不会从它的经验中学习。它有时可能会反一些简单的推理错误,这似乎与它在众多领域的能力(competence)不符,或者过于轻信(gullible)用户明显错误的陈述。它也会像人类一样在棘手的问题上失败,比如在自己编写的代码中引入安全漏洞。

9我们并没有检验RLHF后训练数据被TruthfulQA的污染情况

10预训练以及后训练数据包含了一小部分更近期的数据

GPT-4又是也会对它错误的预测表现自信,在它可能犯错时不会再检查一遍。有趣的是,这个预训练的模型是高度校准的(它在一个问题上的预测置信度通常与正确的概率相匹配)。然而,在后训练步骤后,这个校准的效果减小了(Figure 8)。

GPT-4有在它的输出中有各种各样的偏向,我们努力纠正这些偏向,但是这会花一些时间才能完全定位和实施。我们计划让GPT-4以及其他我们建造的系统拥有能够反映大片用户的价值观的默认行为,允许这些系统在一定范围内被定制,并就这些范围征求公众意见。在OpenAI[68]中有更多细节。

6. 风险&缓解措施

我们为提高GPT-4的安全性和一致性投入了大量精力。在此,我们重点介绍利用领域专家进行对抗测试和红队(red-teaming)的情况,以及我们的模型辅助安全流程[69]和与先前模型相比在安全指标方面的改进。

领域专家进行对抗测试:GPT-4展现了和更小语言模型相似的风险,例如生成有害建议,多bug的代码,或者不准确的信息。然而,GPT-4额外的能力会带来新的风险。为了了解这些风险内容,我们招募了超过50个领域专家,包括long-term AI对齐风险领域,电子安全领域,生物安全领域,以及互联网安全领域,来对抗性地测试模型。他们的发现尤其可以让我们测试模型在高风险领域的行为,这些领域需要独特的专业知识来评估,同时还能评估未来会与非常先进的人工智能(如power seeking)相关的风险[70]。从这些专家们得到的建议以及训练数据又喂给了我们的模型作为缓解措施以及提升。例如,我们已经收集了额外的数据来提升GPT-4拒绝关于如何合成危险化学物的请求的稳定性。

人工智能对齐:人工智能对齐确保人工智能主体的外部和内部目标与人类价值观保持一致。外部目标是人工智能设计者基于人类价值观定义的目标,而内部目标是在人工智能智体中优化的目标

模型辅助安全流程:正如之前的GPT模型,我们使用有人类反馈的强化学习(RLHF)调优了模型的行为,来产生更符合使用者意图的回答。然而,在RLHF之后,我们的模型可能依然对不安全的输入很脆弱,并且有时对安全和不安全的输入都表现出与期望不符的行为。这些不期望的行为会在在RLHF流程的奖励模型数据收集阶段,对打标者行为的规定不足时出现。当提供不安全的输入时,模型可能胜场不理想的内容,例如为犯罪提供建议。更多地,模型也可能对安全的输入表现的过度谨慎,拒绝安全的请求或者过度对冲(excessively hedging)。为了在更精细的层次上引导我们的模型采取适当的行为,我们非常依赖我们自己的模型作为工具。我们的安全方法包括两个主要的组成部分,一个额外的安全相关的RLHF训练提示词集合,以及基于规则的奖励模型(rule-based reward models, RBRMs)

Figure 8. 左图:预训练的GPT-4在MMLU数据集子集的校准图。在x轴根据模型在每个问题的A/B/C/D选择项上的置信度(logprob)划分的;y轴上是每个分段的准确度。对焦上的虚线代表完美的校准。右图:后训练的GPT-4在同样的MMLU数据集子集的校准图。后训练显著损害了校准。

Table 5. 专家红蓝测试(expert red teaming):示例提示词以及来自多种模型的补全

Table 5

Table 6. 改进的拒绝方式在不允许的类别上的示例提示词和补全

Table 6

Table 7. 在允许的类别上减少拒绝的示例提示词以及补全。Note:这些生成结果会变化,模型可能不会总是生成以上结果。

我们的基于规则的奖励模型(role-based reward models, RBRMs)是一系列zero-shot的GPT-4分类器。这些分类器在RLHF调优期间提供了一个额外的奖励信号到GPT-4 policy model,这些奖励信号目的是纠正模型的行为,例如拒绝生成有害的内容或者不要拒绝无害的请求。RBRM需要三个输入:提示词(可选),policy model的输出,以及一个人类写的评分标准(例如,一个多选类型的一系列规则)来规定这个输出应该如何被评估。然后,RBRM基于这些评分标准粉来输出。例如,我们可以提供一个评分标准来指导模型分类模型响应到:(a) 一个合适格式的拒绝,(b) 一个不合适格式的拒绝( 例如,回避或者漫无其词),© 包含不允许的内容,或者(d) 一个安全的非拒绝的回答。然后在前面提到的一系列安全相关的训练提示词上,这些提示词请求了有害的内容例如非法建议,我们可以奖励GPT-4来拒绝这些请求。相反地,我们可以奖励GPT-4来不要拒绝来自绝对安全且可回答的提示词子集的请求。这项技术与Glaese等人[71]以及Perez等人[72]的成果有关。这个技术,与其他的技术结合,例如计算最优RBRM权重以及提供额外的针对我们想要提升领域的SFT(Supervised Fine-Tuning) 数据,让我们可以引导模型更接近预期的行为。

**安全测量矩阵的提升: **我们的缓解措施已经显著提升了很多GPT-4的安全特性。相比GPT-3.5,我们已经减小了模型回答不允许内容(Table 6)请求的82%的可能,GPT-4按照我们的策略回应敏感请求(如医疗建议和自我伤害,Table 7)的频率高出 29%(Figure 9)。在RealToxicityPrompts数据集[73],GPT-4仅仅在0.73%的评估期间生成了的toxic内容,而GPT-3.5有6.48%的时间。

Figure 9

Figure 9. 在敏感以及不允许提示词上的不正确行为比率。数值越小越好。GPT-4 RLHF相比之前模型有非常低的不正确行为比率。

总的来说,我们模型级的干预措施已经增加了模型提出坏行为的难度,但是依然有可能会这么做。例如,“越狱”的情况依然存在(例如,adversarial system messages,System Card中的Figure 10中有更多信息)。只要这些限制存在,使用部署阶段的安全技术是十分必要的,例如对滥用的监视以及一个快速迭代以提升模型的流程。

GPT-4以及后继模型拥有显著影响社会的潜力,这些影响可能是有益的也可能是有害的。我们正在与额外的研究者合作来提升我们我们对潜在影响的理解以及介入能力,同时也建立对未来系统可能出现的危险能力的评估措施。我们很快就会发布建议,包括社会应该如何逐步为AI的影响作准备以及预测人工智能可能产生的经济影响的初步设想。

7. 结论

我们描述了GPT-4,一个巨大的多模态模型,在特定困难的专业以及学术基准上拥有人类水平的能力。GPT-4在一系列的NLP任务上击败了现存的大语言模型,并且超过了绝大多数的报道的SOTA系统(这些系统经常包含特定任务上的调优)。我们发现能力的提高,虽然通常是使用英语测量的,但是也可以在很多不同语言中展现。我们重点讲了可预测地scaling是如何让我们可以准确预测GPT-4的损失和能力的。

GPT-4的提升的能力展现出了新的风险,我们讨论了采取的一些方法和结果来理解和提升它的安全性和alignment。虽然还有很多工作需要做,GPT-4的表现朝着广泛有用、安全部署的AI系统迈了一大步。

Authorship, Credit Attribution, and Acknowledgements

Please cite this work as “OpenAI (2023)”

Pretraining

核心贡献者11

Christopher Berner Supercomputing lead
Greg Brockman Infrastructure lead
Trevor Cai Throughput lead
David Farhi Manager of optimization team
Chris Hesse Infrastructure usability co-lead
Shantanu Jain Infrastructure usability co-lead
Kyle Kosic Uptime and stability lead
Jakub Pachocki Overall lead, optimization lead
Alex Paino Architecture & data vice lead
Mikhail Pavlov Software correctness lead
Michael Petrov Hardware correctness lead
Nick Ryder Architecture & data lead
Szymon Sidor Optimization vice lead
Nikolas Tezak Execution lead
Phil Tillet Triton lead
Amin Tootoonchian Model distribution, systems & networking lead
Qiming Yuan Dataset sourcing and processing lead
Wojciech Zaremba Manager of dataset team

Compute cluster scaling11

Christopher Berner, Oleg Boiko, Andrew Cann, Ben Chess, Christian Gibson, Mateusz Litwin, Emy Parparita, Henri Roussez, Eric Sigler, Akila Welihinda

Data

Sandhini Agarwal, Suchir Balaji, Mo Bavarian, Che Chang, Sheila Dunning, Leo Gao, Jonathan Gordon, Peter Hoeschele, Shawn Jain, Shantanu Jain, Roger Jiang, Heewoo Jun, Łukasz Kaiser, Nitish Shirish Keskar, Jong Wook Kim, Aris Konstantinidis, Chak Ming Li, Todor Markov, Bianca Martin, David Mély, Oleg Murk, Hyeonwoo Noh, Long Ouyang, Alex Paino, Vitchyr Pong, Alec Radford, Nick Ryder, John Schulman, Daniel Selsam, Ian Sohl, Chelsea Voss, Lilian Weng, Clemens Winter, Tao Xu, Qiming Yuan, Wojciech Zaremba

Distributed training infrastructure

Greg Brockman, Trevor Cai, Chris Hesse, Shantanu Jain, Yongjik Kim, Kyle Kosic, Mateusz Litwin, Jakub Pachocki, Mikhail Pavlov, Szymon Sidor, Nikolas Tezak, Madeleine Thompson, Amin Tootoonchian, Qiming Yuan

Hardware correctness

Greg Brockman, Shantanu Jain, Kyle Kosic, Michael Petrov, Nikolas Tezak, Amin Tootoonchian, Chelsea Voss, Qiming Yuan

Optimization & architecture

Igor Babuschkin, Mo Bavarian, Adrien Ecoffet, David Farhi, Jesse Han, Ingmar Kanitscheider, Daniel Levy, Jakub Pachocki, Alex Paino, Mikhail Pavlov, Nick Ryder, Szymon Sidor, Jie Tang, Jerry Tworek, Tao Xu

Training run babysitting

Suchir Balaji, Mo Bavarian, Greg Brockman, Trevor Cai, Chris Hesse, Shantanu Jain, Roger Jiang, Yongjik Kim, Kyle Kosic, Mateusz Litwin, Jakub Pachocki, Alex Paino, Mikhail Pavlov, Michael Petrov, Nick Ryder, Szymon Sidor, Nikolas Tezak, Madeleine Thompson, Phil Tillet, Amin Tootoonchian, Chelsea Voss, Ben Wang, Tao Xu, Qiming Yuan

Long context

Vision

Reinfocement Learning & Alignment

Evaluation & analysis

Deployment

Additional contributions

……

参考文献

[1] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D. Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are
few-shot learners. Advances in Neural Information Processing Systems, 33:1877–1901, 2020.

[2] Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. Training compute-optimal large language models. arXiv preprint arXiv:2203.15556, 2022.

[3] Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. PaLM:
Scaling language modeling with pathways. arXiv preprint arXiv:2204.02311, 2022.

[4] Jack W Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, et al. Scaling language models: Methods, analysis & insights from training gopher. arXiv preprint arXiv:2112.11446, 2021.

[5] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, and Ruslan Salakhutdinov. Transformer-XL: Attentive language models beyond a fixed-length context. arXiv preprint
arXiv:1901.02860, 2019.

[6] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. RoBERTa: A robustly optimized BERT pretraining approach. arXiv preprint arXiv:1907.11692, 2019.

[7] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805,
2018.

[8] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. arXiv preprint arXiv:1910.10683, 2019.

[9] Noam Shazeer and Mitchell Stern. Adafactor: Adaptive learning rates with sublinear memory cost. arXiv preprint arXiv:1804.04235, 2018.

[10] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E. Hinton. Layer normalization. arXiv preprint arXiv:1607.06450, 2016.

[11] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. Chain-of-thought prompting elicits reasoning in large language models. NeurIPS, 2022.

[12] Jiaxin Huang, Shixiang Shane Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, and Jiawei Han. Large language models can self-improve. arXiv preprint arXiv:2210.11610, 2022.

[13] Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. Large language models are zero-shot reasoners. arXiv preprint arXiv:2205.11916, 2022.

[14] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.

[15] Tom Henighan, Jared Kaplan, Mor Katz, Mark Chen, Christopher Hesse, Jacob Jackson, Heewoo Jun, Tom B. Brown, Prafulla Dhariwal, Scott Gray, et al. Scaling laws for autoregressive
generative modeling. arXiv preprint arXiv:2010.14701, 2020.

[16] Greg Yang, Edward J. Hu, Igor Babuschkin, Szymon Sidor, Xiaodong Liu, David Farhi, Nick Ryder, Jakub Pachocki, Weizhu Chen, and Jianfeng Gao. Tensor Programs V: Tuning large
neural networks via zero-shot hyperparameter transfer. arXiv preprint arXiv:2203.03466, 2022.

[17] Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. Outrageously large neural networks: The sparsely-gated Mixture-of-Experts layer. arXiv preprint arXiv:1701.06538, 2017.

[18] Barret Zoph, Irwan Bello, Sameer Kumar, Nan Du, Yanping Huang, Jeff Dean, Noam Shazeer, and William Fedus. ST-MoE: Designing stable and transferable sparse expert models. arXiv
preprint arXiv:2202.08906, 2022.

[19] Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, et al. Emergent abilities of large language models. TMLR, 2022.

[20] Mostafa Dehghani, Stephan Gouws, Oriol Vinyals, Jakob Uszkoreit, and Lukasz Kaiser. Universal transformers. In International Conference on Learning Representations, 2019. URL
https://openreview.net/forum?id=HyzdRiR9Y7.

[21] Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, and Yunfeng Liu. RoFormer: Enhanced transformer with rotary position embedding. arXiv preprint arXiv:2104.09864, 2021.

[22] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual
language model for few-shot learning. In Advances in Neural Information Processing Systems.

[23] Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner, Basil Mustafa, Lucas Beyer, et al. PaLI: A jointly-scaled multilingual language-image model. arXiv preprint arXiv:2209.06794, 2022.

[24] Ben Wang and Aran Komatsuzaki. GPT-J-6B: A 6 billion parameter autoregressive language model, 2021.

[25] Sid Black, Leo Gao, Phil Wang, Connor Leahy, and Stella Biderman. GPT-Neo: Large scale autoregressive language modeling with mesh-tensorflow. If you use this software, please cite it
using these metadata, 58, 2021.

[26] Teven Le Scao, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ilic, Daniel Hesslow, ´Roman Castagné, Alexandra Sasha Luccioni, François Yvon, Matthias Gallé, et al. Bloom: A 176B-parameter open-access multilingual language model. arXiv preprint arXiv:2211.05100, 2022.

[27] Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, et al. OPT: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068, 2022.

[28] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. LLaMA: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.

[29] Alec Radford, Rafal Józefowicz, and Ilya Sutskever. Learning to generate reviews and discovering sentiment. arXiv preprint arXiv:1704.01444, 2017.

[30] Guillaume Lample and Alexis Conneau. Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291, 2019.

[31] Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, and Christopher Ré. Flashattention: Fast and memory-efficient exact attention with io-awareness. arXiv preprint arXiv:2205.14135, 2022.

[32] Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse transformers. arXiv preprint arXiv:1904.10509, 2019.

[33] Markus N. Rabe and Charles Staats. Self-attention does not need o(n2) memory. arXiv preprint arXiv:2112.05682, 2021.

[34] Scott Gray, Alec Radford, and Diederik P. Kingma. Gpu kernels for block-sparse weights, 2017. URL https://cdn.openai.com/blocksparse/blocksparsepaper.pdf.

[35] Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. Proceedings of the International Conference on Learning Representations (ICLR), 2021.

[36] Dan Hendrycks, Collin Burns, Steven Basart, Andrew Critch, Jerry Li, Dawn Song, and Jacob Steinhardt. Aligning AI with shared human values. Proceedings of the International Conference on Learning Representations (ICLR), 2021.

[37] Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Language models are unsupervised multitask learners. 2019.

[38] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. Improving language understanding by generative pre-training. 2018.

[39] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. NeurIPS, 2017.

[40] Paul F Christiano, Jan Leike, Tom Brown, Miljan Martic, Shane Legg, and Dario Amodei. Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30, 2017.

[41] Joel Hestness, Sharan Narang, Newsha Ardalani, Gregory Diamos, Heewoo Jun, Hassan Kianinejad, Md Patwary, Mostofa Ali, Yang Yang, and Yanqi Zhou. Deep learning scaling is predictable, empirically. arXiv preprint arXiv:1712.00409, 2017.

[42] Neil C Thompson, Kristjan Greenewald, Keeheon Lee, and Gabriel F Manso. The computational limits of deep learning. arXiv preprint arXiv:2007.05558, 2020.

[43] Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Petroski Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, William Hebgen Guss, Alex Nichol, Alex Paino, Nikolas Tezak, Jie Tang, Igor Babuschkin, Suchir Balaji, Shantanu Jain, William Saunders, Christopher Hesse, Andrew N. Carr, Jan Leike, Josh Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, and Wojciech Zaremba. Evaluating large language models trained on code. 2021.

[44] Ian McKenzie, Alexander Lyzhov, Alicia Parrish, Ameya Prabhu, Aaron Mueller, Najoung Kim, Sam Bowman, and Ethan Perez. The Inverse Scaling Prize, 2022. URL https://github.com/inverse-scaling/prize.

[45] Jason Wei, Najoung Kim, Yi Tay, and Quoc V. Le. Inverse scaling can become U-shaped. arXiv preprint arXiv:2211.02011, 2022.

[46] Ian McKenzie, Alexander Lyzhov, Alicia Parrish, Ameya Prabhu, Aaron Mueller, Najoung Kim, Sam Bowman, and Ethan Perez. Inverse Scaling Prize: First round winners, 2022. URL https://irmckenzie.co.uk/round1.

[47] Greg Brockman, Peter Welinder, Mira Murati, and OpenAI. OpenAI: OpenAI API, 2020. URL https://openai.com/blog/openai-api.

[48] Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R. Brown, Adam Santoro, Aditya Gupta, Adrià Garriga-Alonso, et al. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615, 2022.

[49] Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300, 2020.

[50] Yi Tay, Jason Wei, Hyung Won Chung, Vinh Q Tran, David R So, Siamak Shakeri, Xavier Garcia, Huaixiu Steven Zheng, Jinfeng Rao, Aakanksha Chowdhery, et al. Transcending scaling laws with 0.1% extra compute. arXiv preprint arXiv:2210.11399, 2022.

[51] Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, et al. Scaling instruction-finetuned language models. arXiv preprint arXiv:2210.11416, 2022.

[52] Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. HellaSwag: Can a machine really finish your sentence? In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4791–4800, Florence, Italy, July 2019. Association for Computational Linguistics. doi: 10.18653/v1/P19-1472. URL https://aclanthology.org/P19-1472.

[53] Xiaodong Liu, Hao Cheng, Pengcheng He, Weizhu Chen, Yu Wang, Hoifung Poon, and Jianfeng Gao. Adversarial training for large neural language models. arXiv preprint arXiv:2004.08994, 2020.

[54] Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. Think you have solved question answering? Try ARC, the AI2 reasoning challenge. ArXiv, abs/1803.05457, 2018.

[55] Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, and Denny Zhou. Selfconsistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171, 2022.

[56] Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. WinoGrande: An adversarial Winograd schema challenge at scale. arXiv preprint arXiv:1907.10641, 2019.

[57] Bei Chen, Fengji Zhang, Anh Nguyen, Daoguang Zan, Zeqi Lin, Jian-Guang Lou, and Weizhu Chen. CodeT: Code generation with generated tests. arXiv preprint arXiv:2207.10397, 2022.

[58] Dheeru Dua, Yizhong Wang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, and Matt Gardner. DROP: A reading comprehension benchmark requiring discrete reasoning over paragraphs. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 2368–2378, Minneapolis, Minnesota, June 2019. Association for Computational Linguistics. doi: 10.18653/v1/N19-1246. URL https://aclanthology. org/N19-1246.

[59] Kunlong Chen, Weidi Xu, Xingyi Cheng, Zou Xiaochuan, Yuyu Zhang, Le Song, Taifeng Wang, Yuan Qi, and Wei Chu. Question directed graph attention network for numerical reasoning over text. arXiv preprint arXiv:2009.07448, 2020.

[60] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.

[61] Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, et al. Solving quantitative reasoning problems with language models. arXiv preprint arXiv:2206.14858, 2022.

[62] Jonathan Uesato, Nate Kushman, Ramana Kumar, Francis Song, Noah Siegel, Lisa Wang, Antonia Creswell, Geoffrey Irving, and Irina Higgins. Solving math word problems with process- and outcome-based feedback. arXiv preprint arXiv:2211.14275, 2022.

[63] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155, 2022.

[64] OpenAI. OpenAI: Introducing ChatGPT, 2022. URL https://openai.com/blog/chatgpt.

[65] OpenAI. OpenAI: GPT-4, 2023. URL https://openai.com/research/gpt-4.

[66] Stephanie Lin, Jacob Hilton, and Owain Evans. TruthfulQA: Measuring how models mimic human falsehoods. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 3214–3252, Dublin, Ireland, May 2022. Association for Computational Linguistics. doi: 10.18653/v1/2022.acl-long.229. URL https://aclanthology.org/2022.acl-long.229.

[67] Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, Dawn Drain, Stanislav Fort, Deep Ganguli, Tom Henighan, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862, 2022.

[68] OpenAI. OpenAI: How should AI systems behave, and who should decide?, 2023. URL https://openai.com/blog/how-should-ai-systems-behave.

[69] Jan Leike, John Schulman, and Jeffrey Wu. OpenAI: Our approach to alignment research, 2022. URL https://openai.com/blog/our-approach-to-alignment-research.

[70] Joseph Carlsmith. Is power-seeking AI an existential risk? ArXiv, abs/2206.13353, 2022.

[71] Amelia Glaese, Nat McAleese, Maja Tr˛ebacz, John Aslanides, Vlad Firoiu, Timo Ewalds, Maribeth Rauh, Laura Weidinger, Martin Chadwick, Phoebe Thacker, Lucy Campbell-Gillingham, Jonathan Uesato, Po-Sen Huang, Ramona Comanescu, Fan Yang, Abigail See, Sumanth Dathathri, Rory Greig, Charlie Chen, Doug Fritz, Jaume Sanchez Elias, Richard Green, Sonaˇ Mokrá, Nicholas Fernando, Boxi Wu, Rachel Foley, Susannah Young, Iason Gabriel, William Isaac, John Mellor, Demis Hassabis, Koray Kavukcuoglu, Lisa Anne Hendricks, and Geoffrey Irving. Improving alignment of dialogue agents via targeted human judgements. arXiv preprint arXiv:2209.14375, 2022.

[72] Ethan Perez, Saffron Huang, H. Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese, and Geoffrey Irving. Red teaming language models with language models. arXiv preprint arXiv:2202.03286, 2022.

[73] Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi, and Noah A Smith. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462, 2020.

[74] Dora Seigel. How do you calculate SAT score? raw and scaled, 1 2020. URL https: //blog.prepscholar.com/how-to-calculate-sat-score.

[75] The Albert blog. URL https://www.albert.io/blog/.

[76] Mathematical Association of America. AMC statistics, 2023. URL http://amc-reg.maa. org/Reports/GeneralReports.aspx.

[77] Halle Edwards. SAT percentiles and score rankings, 2022. URL https://blog. prepscholar.com/sat-percentiles-and-score-rankings.

[78] College Board. Understanding SAT scores, 2022. URL https://satsuite.collegeboard. org/media/pdf/understanding-sat-scores.pdf.

[79] College Board. AP score distributions by subject, 2022. URL https://apcentral. collegeboard.org/media/pdf/ap-score-distributions-by-subject-2022.pdf.

[80] Center for Excellence in Education. 2020 USABO Semifinal exam score distribution, 2022. URL https://www.usabo-trc.org/sites/default/files/allfiles/2020 USABO Semifinal Exam Histogram.pdf.

[81] Chris Swimmer. GRE score percentiles – what does your score mean for you? (2021 update), 4 2021. URL https://magoosh.com/gre/gre-score-percentiles/.

[82] John B. Nici. AP Art History: 5 Practice Tests + Comprehensive Review + Online Practice. Barron’s Test Prep. Barron’s Educational Series, 2020. ISBN 9781506260501.

[83] ETS. GRE sample issue task, 2022. URL https://www.ets.org/pdfs/gre/ sample-issue-task.pdf.

[84] Margaret Mitchell, Simone Wu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji, and Timnit Gebru. Model Cards for Model Reporting. In Proceedings of the Conference on Fairness, Accountability, and Transparency, pages 220– 229, January 2019. doi: 10.1145/3287560.3287596.

[85] Nekesha Green, Chavez Procope, Adeel Cheema, and Adekunle Adediji. System Cards, a new resource for understanding how AI systems work. https://ai.facebook.com/blog/system-cards-anew-resource-for-understanding-how-ai-systems-work/, February 2022

附录

A Exam Benchmark Methodology

A.1 Sourcing

A.2 Prompting: multiple-choice

A.3 Prompting: free-response

A.4 Images

A.5 Scoring

A.6 Codeforces rating

A.7 Model snapshot details

A.8 Example few-shot prompts

B Impact of RLHF on capability

C Contamination on professional and academic exams

D Contamination on academic benchmarks

E GSM-8K in GPT-4 training

F Multilingual MMLU

G Examles of GPT-4 Visual Input

H System Card