评估
- 训练后,联合专家对模型在多方面评估,可以包括long-term AI对齐风险领域,电子安全领域,生物安全领域,以及互联网安全领域等
调优
- 模型调优的目的:1. 将模型的表现与我们的预期更好地对齐;2. 让模型能合理拒绝不安全的输入,回答安全输入
reward model
PPO
terms:
toxicity: 模型的有毒性主要指大模型会产生的攻击性、有害的内容。这些内容的产生与语言模型之间存在割裂性。因为语言模型不具有感情,只是基于概率去处理和产生文本内容,但是这些文本内容却可能会伤害到一些人。